- M:N
- delete
- create
- Article & User
- stack
- 이진트리
- SQL
- regexp
- migrations
- ORM
- 뷰
- 완전검색
- outer join
- 통계학
- Vue
- distinct
- 그리디
- 트리
- update
- 스택
- 백트래킹
- Queue
- 큐
- DB
- Django
- count
- N:1
- drf
- Tree
- 쟝고
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
목록데이터 사이언스/수리 통계학 (59)
데이터 분석 기술 블로그

특성 함수(Characteric Function, CF)는 확률 분포를 복소수 영역에서 표현한 함수로,모멘트 생성 함수(MGF)와 비슷하지만 모든 확률 분포에 대해 항상 존재한다는 강력한 성질을 가진다. → 중심극한정리, 수렴 이론, 분포 식별 등에 핵심적이다.정의복소 지수 함수로 정의됨실수 t에 대해 항상 존재 (MGF보다 안정적)모멘트와의 관계모멘트가 존재한다면, 다음과 같은 관계가 성립한다: 중요한 성질 즉, 특성 함수가 같으면 두 분포는 완전히 같은 분포라는 뜻이다.

모멘트 생성 함수(MGF)는 확률 분포의 모든 모멘트(moment)즉, 평균, 분산, 비대칭도, 첨도 등을 수학적으로 '생성'해낼 수 있는 함수이다. 또한 확률 분포를 특정한 형태로 표현하고 특정한 성질을 분석할 때도 많이 사용된다.정의확률 변수 X의 MGF는 다음과 같이 정의된다:모멘트와의 관계MGF를 t = 0에서 미분하면 모멘트가 나온다:성질예제: 정규분포 이 식은 정규분포의 핵심적인 특징 중 하나고,MGF를 이용해 정규성 여부를 확인하거나, 확률 분포를 판별할 수도 있음

전기댓값의 법칙(Law of Total Expectation)은어떤 확률 변수의 기댓값을 조건부 기대값을 이용해서 계산할 수 있다는 공식이다.공식 Y에 대한 전체 평균은,"조건부 평균(예: 각 그룹의 평균)" × "그 그룹이 나올 확률"의 총합→ 마치 집단별 평균 × 집단 비율 → 전체 평균 느낌과 같음예제 (이산형)어떤 제품이 A업체에서 70%, B업체에서 30% 공급됨A의 불량률: 5%, B의 불량률: 10%→ 전체 불량률은? 조건부 기대값을 사용해 전체 평균을 구한 것이다.

조건부 기댓값(Conditional Expectation)은 어떤 정보가 주어졌을 때, 그 정보 하에서의 기댓값을 의미한다. 예를 들어, 어떤 확률 변수 Y에 대해 "이미 X = x라는 사실을 알고 있을 때" Y의 평균값은 얼마일까? → 바로 조건부 기댓값이다.정의이산형: 연속형:전체 함수로서의 조건부 기댓값조건부 기댓값은 단순한 숫자가 아니라, x의 함수로 볼 수 있다.

공분산(Covariance)과 상관계수(Correlation)는 두 확률 변수가 함께 어떻게 변하는지를 수치적으로 표현하는 도구이다.공분산 (Covariance)공분산의 계산 공식상관계수 (Correlation Coefficient)공분산을 정규화(normalize)한 값:독립성과의 관계 독립이면 항상 공분산 = 0하지만 공분산 = 0이라고 해서 독립인 것은 아님!(비선형 관계가 있을 수 있음)

확률 분포의 형태(shape)를 수치적으로 설명하는 도구인 모멘트(moment), 비대칭도(skewness), 첨도(kurtosis)는 분포가 평균을 기준으로 얼마나 치우쳐 있는지, 또는 꼭대기가 뾰족한지 평평한지 등을 알 수 있다.모멘트(Moment)k차 모멘트는 다음과 같이 정의된다:중심 모멘트(Central Moment)중심을 기준으로 한 모멘트: μ2 = Var(X): 분산중심 모멘트는 분포의 중심(평균)을 기준으로 계산함→ 모양을 설명하는 데 유리비대칭도(Skewness)분포의 좌우 비대칭 정도를 나타내는 수치: 첨도(Kurtosis)

분산(Variance)은 확률 변수의 값이 평균(기댓값)을 기준으로 얼마나 퍼져 있는지(산포도)를 수치로 나타내는 척도이다.기댓값이 '중심'이라면, 분산은 '흩어짐의 정도'라고 생각하면 된다.정의 즉, 기댓값으로부터의 거리(오차)의 제곱의 평균→ 항상 0 이상이며, 값이 클수록 불확실성도 큼분산의 대체 공식 (shortcut formula)상수와의 연산 분산은 평균 이동에는 영향 없음,스케일(크기)에는 제곱 배로 커짐독립 확률 변수의 분산확률 변수 X, Y가 독립이라면: 일반적으로는 다음과 같이 공분산을 포함해야 한다:표준편차 (Standard Deviation)→ 분산은 제곱 단위라서, 원래 단위로 되돌릴 땐 표준편차를 사용

기댓값은 단순히 평균을 의미할 뿐만 아니라, 선형성(linearity)이라는 매우 강력한 수학적 성질을 갖고 있다.이 성질 덕분에 복잡한 확률 계산도 간단하게 정리할 수 있다.선형성 (Linearity)기댓값의 가장 핵심적인 성질은 선형성(linearity)이다. 확률 변수 간 독립 여부와 관계없이 항상 성립함분산은 독립성 여부에 영향을 받지만, 기댓값은 무조건 선형상수의 기댓값 무작위성이 없는 값의 기댓값은 그 자체이다.지표 함수의 기댓값최대값과 기댓값의 부등식기댓값과 함수 적용 예외적으로 선형 함수 g(x)=ax+b일 때만