- Article & User
- M:N
- ORM
- N:1
- outer join
- 그리디
- update
- DB
- 완전검색
- Queue
- 트리
- 통계학
- 뷰
- 쟝고
- migrations
- regexp
- distinct
- count
- Django
- Vue
- 큐
- drf
- 스택
- 이진트리
- Tree
- delete
- stack
- 백트래킹
- SQL
- create
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | ||||||
| 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| 9 | 10 | 11 | 12 | 13 | 14 | 15 |
| 16 | 17 | 18 | 19 | 20 | 21 | 22 |
| 23 | 24 | 25 | 26 | 27 | 28 | 29 |
| 30 |
목록분류 전체보기 (458)
데이터 분석 기술 블로그
기댓값과 분산 기댓값은 항상 선형,분산은 독립일 때만 분리 가능분포의 형태 이항 분포 + 이항 분포 = 또 다른 이항 분포(같은 성공 확률일 때)정규 분포 + 정규 분포 = 또 다른 정규 분포포아송 분포 + 포아송 분포 = 또 다른 포아송 분포(독립이고 평균만 다를 때)컨볼루션 관점확률 밀도 함수(PDF 또는 PMF) 관점에서는,독립 확률 변수의 합의 분포는 컨볼루션으로 계산된다: → 앞에서 배운 convolution 개념과 동일하다.
특성 함수(Characteric Function, CF)는 확률 분포를 복소수 영역에서 표현한 함수로,모멘트 생성 함수(MGF)와 비슷하지만 모든 확률 분포에 대해 항상 존재한다는 강력한 성질을 가진다. → 중심극한정리, 수렴 이론, 분포 식별 등에 핵심적이다.정의복소 지수 함수로 정의됨실수 t에 대해 항상 존재 (MGF보다 안정적)모멘트와의 관계모멘트가 존재한다면, 다음과 같은 관계가 성립한다: 중요한 성질 즉, 특성 함수가 같으면 두 분포는 완전히 같은 분포라는 뜻이다.
모멘트 생성 함수(MGF)는 확률 분포의 모든 모멘트(moment)즉, 평균, 분산, 비대칭도, 첨도 등을 수학적으로 '생성'해낼 수 있는 함수이다. 또한 확률 분포를 특정한 형태로 표현하고 특정한 성질을 분석할 때도 많이 사용된다.정의확률 변수 X의 MGF는 다음과 같이 정의된다:모멘트와의 관계MGF를 t = 0에서 미분하면 모멘트가 나온다:성질예제: 정규분포 이 식은 정규분포의 핵심적인 특징 중 하나고,MGF를 이용해 정규성 여부를 확인하거나, 확률 분포를 판별할 수도 있음
전기댓값의 법칙(Law of Total Expectation)은어떤 확률 변수의 기댓값을 조건부 기대값을 이용해서 계산할 수 있다는 공식이다.공식 Y에 대한 전체 평균은,"조건부 평균(예: 각 그룹의 평균)" × "그 그룹이 나올 확률"의 총합→ 마치 집단별 평균 × 집단 비율 → 전체 평균 느낌과 같음예제 (이산형)어떤 제품이 A업체에서 70%, B업체에서 30% 공급됨A의 불량률: 5%, B의 불량률: 10%→ 전체 불량률은? 조건부 기대값을 사용해 전체 평균을 구한 것이다.
조건부 기댓값(Conditional Expectation)은 어떤 정보가 주어졌을 때, 그 정보 하에서의 기댓값을 의미한다. 예를 들어, 어떤 확률 변수 Y에 대해 "이미 X = x라는 사실을 알고 있을 때" Y의 평균값은 얼마일까? → 바로 조건부 기댓값이다.정의이산형: 연속형:전체 함수로서의 조건부 기댓값조건부 기댓값은 단순한 숫자가 아니라, x의 함수로 볼 수 있다.
공분산(Covariance)과 상관계수(Correlation)는 두 확률 변수가 함께 어떻게 변하는지를 수치적으로 표현하는 도구이다.공분산 (Covariance)공분산의 계산 공식상관계수 (Correlation Coefficient)공분산을 정규화(normalize)한 값:독립성과의 관계 독립이면 항상 공분산 = 0하지만 공분산 = 0이라고 해서 독립인 것은 아님!(비선형 관계가 있을 수 있음)
확률 분포의 형태(shape)를 수치적으로 설명하는 도구인 모멘트(moment), 비대칭도(skewness), 첨도(kurtosis)는 분포가 평균을 기준으로 얼마나 치우쳐 있는지, 또는 꼭대기가 뾰족한지 평평한지 등을 알 수 있다.모멘트(Moment)k차 모멘트는 다음과 같이 정의된다:중심 모멘트(Central Moment)중심을 기준으로 한 모멘트: μ2 = Var(X): 분산중심 모멘트는 분포의 중심(평균)을 기준으로 계산함→ 모양을 설명하는 데 유리비대칭도(Skewness)분포의 좌우 비대칭 정도를 나타내는 수치: 첨도(Kurtosis)
분산(Variance)은 확률 변수의 값이 평균(기댓값)을 기준으로 얼마나 퍼져 있는지(산포도)를 수치로 나타내는 척도이다.기댓값이 '중심'이라면, 분산은 '흩어짐의 정도'라고 생각하면 된다.정의 즉, 기댓값으로부터의 거리(오차)의 제곱의 평균→ 항상 0 이상이며, 값이 클수록 불확실성도 큼분산의 대체 공식 (shortcut formula)상수와의 연산 분산은 평균 이동에는 영향 없음,스케일(크기)에는 제곱 배로 커짐독립 확률 변수의 분산확률 변수 X, Y가 독립이라면: 일반적으로는 다음과 같이 공분산을 포함해야 한다:표준편차 (Standard Deviation)→ 분산은 제곱 단위라서, 원래 단위로 되돌릴 땐 표준편차를 사용