- Article & User
- update
- 큐
- M:N
- 스택
- SQL
- 뷰
- migrations
- create
- 이진트리
- N:1
- regexp
- stack
- 그리디
- Tree
- delete
- Django
- count
- outer join
- 쟝고
- Queue
- Vue
- 통계학
- 트리
- drf
- distinct
- 백트래킹
- ORM
- DB
- 완전검색
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
목록2025/04 (30)
데이터 분석 기술 블로그

모멘트 생성 함수(MGF)는 확률 분포의 모든 모멘트(moment)즉, 평균, 분산, 비대칭도, 첨도 등을 수학적으로 '생성'해낼 수 있는 함수이다. 또한 확률 분포를 특정한 형태로 표현하고 특정한 성질을 분석할 때도 많이 사용된다.정의확률 변수 X의 MGF는 다음과 같이 정의된다:모멘트와의 관계MGF를 t = 0에서 미분하면 모멘트가 나온다:성질예제: 정규분포 이 식은 정규분포의 핵심적인 특징 중 하나고,MGF를 이용해 정규성 여부를 확인하거나, 확률 분포를 판별할 수도 있음

전기댓값의 법칙(Law of Total Expectation)은어떤 확률 변수의 기댓값을 조건부 기대값을 이용해서 계산할 수 있다는 공식이다.공식 Y에 대한 전체 평균은,"조건부 평균(예: 각 그룹의 평균)" × "그 그룹이 나올 확률"의 총합→ 마치 집단별 평균 × 집단 비율 → 전체 평균 느낌과 같음예제 (이산형)어떤 제품이 A업체에서 70%, B업체에서 30% 공급됨A의 불량률: 5%, B의 불량률: 10%→ 전체 불량률은? 조건부 기대값을 사용해 전체 평균을 구한 것이다.

조건부 기댓값(Conditional Expectation)은 어떤 정보가 주어졌을 때, 그 정보 하에서의 기댓값을 의미한다. 예를 들어, 어떤 확률 변수 Y에 대해 "이미 X = x라는 사실을 알고 있을 때" Y의 평균값은 얼마일까? → 바로 조건부 기댓값이다.정의이산형: 연속형:전체 함수로서의 조건부 기댓값조건부 기댓값은 단순한 숫자가 아니라, x의 함수로 볼 수 있다.

공분산(Covariance)과 상관계수(Correlation)는 두 확률 변수가 함께 어떻게 변하는지를 수치적으로 표현하는 도구이다.공분산 (Covariance)공분산의 계산 공식상관계수 (Correlation Coefficient)공분산을 정규화(normalize)한 값:독립성과의 관계 독립이면 항상 공분산 = 0하지만 공분산 = 0이라고 해서 독립인 것은 아님!(비선형 관계가 있을 수 있음)

확률 분포의 형태(shape)를 수치적으로 설명하는 도구인 모멘트(moment), 비대칭도(skewness), 첨도(kurtosis)는 분포가 평균을 기준으로 얼마나 치우쳐 있는지, 또는 꼭대기가 뾰족한지 평평한지 등을 알 수 있다.모멘트(Moment)k차 모멘트는 다음과 같이 정의된다:중심 모멘트(Central Moment)중심을 기준으로 한 모멘트: μ2 = Var(X): 분산중심 모멘트는 분포의 중심(평균)을 기준으로 계산함→ 모양을 설명하는 데 유리비대칭도(Skewness)분포의 좌우 비대칭 정도를 나타내는 수치: 첨도(Kurtosis)

분산(Variance)은 확률 변수의 값이 평균(기댓값)을 기준으로 얼마나 퍼져 있는지(산포도)를 수치로 나타내는 척도이다.기댓값이 '중심'이라면, 분산은 '흩어짐의 정도'라고 생각하면 된다.정의 즉, 기댓값으로부터의 거리(오차)의 제곱의 평균→ 항상 0 이상이며, 값이 클수록 불확실성도 큼분산의 대체 공식 (shortcut formula)상수와의 연산 분산은 평균 이동에는 영향 없음,스케일(크기)에는 제곱 배로 커짐독립 확률 변수의 분산확률 변수 X, Y가 독립이라면: 일반적으로는 다음과 같이 공분산을 포함해야 한다:표준편차 (Standard Deviation)→ 분산은 제곱 단위라서, 원래 단위로 되돌릴 땐 표준편차를 사용

기댓값은 단순히 평균을 의미할 뿐만 아니라, 선형성(linearity)이라는 매우 강력한 수학적 성질을 갖고 있다.이 성질 덕분에 복잡한 확률 계산도 간단하게 정리할 수 있다.선형성 (Linearity)기댓값의 가장 핵심적인 성질은 선형성(linearity)이다. 확률 변수 간 독립 여부와 관계없이 항상 성립함분산은 독립성 여부에 영향을 받지만, 기댓값은 무조건 선형상수의 기댓값 무작위성이 없는 값의 기댓값은 그 자체이다.지표 함수의 기댓값최대값과 기댓값의 부등식기댓값과 함수 적용 예외적으로 선형 함수 g(x)=ax+b일 때만

기댓값(Expected Value)은 확률 변수의 '평균적 결과'를 나타내는 개념이다.통계에서 말하는 '평균(mean)'과 거의 같은 뜻이지만, 확률 분포에 기반한 수학적 정의를 갖고 있다.이산형 확률 변수의 기댓값 각 값 x에 그 확률을 곱해서 다 더한 것 → 가중 평균(weighted average)연속형 확률 변수의 기댓값연속 확률 변수 X의 확률 밀도 함수(PDF)가 f(x) 일 때: 이산형과 마찬가지로 값 × 확률의 '무한한 합'인 적분 형태기댓값의 의미장기적인 평균 결과무작위 시행을 매우 많이 반복했을 때의 평균확률 모델에서 중심위치(중심성)를 나타내는 지표조건: 기댓값이 존재하려면→ 절댓값을 포함한 기댓값이 유한해야 실제 기댓값도 정의됨