데이터 사이언스/수리 통계학
Variance (분산)
데이터분석가 이채은
2025. 4. 9. 02:02
분산(Variance)은 확률 변수의 값이 평균(기댓값)을 기준으로 얼마나 퍼져 있는지(산포도)를 수치로 나타내는 척도이다.
기댓값이 '중심'이라면, 분산은 '흩어짐의 정도'라고 생각하면 된다.
정의
즉, 기댓값으로부터의 거리(오차)의 제곱의 평균
→ 항상 0 이상이며, 값이 클수록 불확실성도 큼
분산의 대체 공식 (shortcut formula)
상수와의 연산
- 분산은 평균 이동에는 영향 없음,
- 스케일(크기)에는 제곱 배로 커짐
독립 확률 변수의 분산
확률 변수 X, Y가 독립이라면:
일반적으로는 다음과 같이 공분산을 포함해야 한다:
표준편차 (Standard Deviation)
→ 분산은 제곱 단위라서, 원래 단위로 되돌릴 땐 표준편차를 사용