데이터 분석 기술 블로그

Variance (분산) 본문

데이터 사이언스/수리 통계학

Variance (분산)

데이터분석가 이채은 2025. 4. 9. 02:02

분산(Variance)은 확률 변수의 값이 평균(기댓값)을 기준으로 얼마나 퍼져 있는지(산포도)를 수치로 나타내는 척도이다.
기댓값이 '중심'이라면, 분산은 '흩어짐의 정도'라고 생각하면 된다.


정의

 

즉, 기댓값으로부터의 거리(오차)의 제곱의 평균
→ 항상 0 이상이며, 값이 클수록 불확실성도 큼


분산의 대체 공식 (shortcut formula)


상수와의 연산

 

  • 분산은 평균 이동에는 영향 없음,
  • 스케일(크기)에는 제곱 배로 커짐

독립 확률 변수의 분산

확률 변수 X, Y독립이라면:

 

일반적으로는 다음과 같이 공분산을 포함해야 한다:


표준편차 (Standard Deviation)

→ 분산은 제곱 단위라서, 원래 단위로 되돌릴 땐 표준편차를 사용