데이터 분석 기술 블로그

Multivariate Distributions and Random Vectors (다변량 분포와 확률 벡터) 본문

데이터 사이언스/수리 통계학

Multivariate Distributions and Random Vectors (다변량 분포와 확률 벡터)

데이터분석가 이채은 2025. 4. 1. 02:00

확률 벡터란?

확률 변수 여러 개를 벡터 형태로 묶은 것이 확률 벡터이다.

 

예:

이때 Xn차원 확률 벡터 (random vector)
Xi는 확률 변수이고, 전체가 하나의 다변량 확률 분포를 따르게 된다.


다변량 분포(Multivariate Distribution)

확률 벡터 X의 분포는 다음과 같은 성분들로 구성된다:

  • 결합 확률 밀도 함수 (Joint PDF):

 

  • 주변 분포 (Marginal Distribution):
    각 변수에 대해 나머지를 적분하여 구함.

 

  • 조건부 분포 (Conditional Distribution):
    일부 변수를 조건으로 고정한 후 나머지의 분포를 분석.

기댓값 벡터와 공분산 행렬

다변량 확률 벡터의 대표적인 두 가지 통계량은 다음과 같다:

 

기대값 벡터 (Mean Vector)

 

 

공분산 행렬 (Covariance Matrix)

 

  • 공분산 행렬은 대칭 행렬이며, 양의 정부호(positive semi-definite)
  • 머신러닝에서 데이터의 분산 방향(주성분 분석 등) 파악에 매우 중요

예제: 3차원 확률 벡터