데이터 사이언스/수리 통계학
The Categorical Distribution (범주형 분포)
데이터분석가 이채은
2025. 3. 17. 10:51
범주형 분포
범주형 분포(Categorical Distribution)는 세 개 이상의 범주를 가지는 이산 확률 분포이다.
즉, 여러 개의 가능한 결과 중 하나가 발생하는 경우를 모델링하는 데 사용된다.
범주형 분포란?
범주형 분포는 베르누이 분포의 확장판이다.
- 베르누이 분포: 두 가지 결과(예: 앞면 vs 뒷면)만 존재
- 범주형 분포: 세 개 이상의 결과(예: 주사위 눈금, 여러 선택지 중 하나)
확률 변수가 k개의 서로 다른 범주를 가질 때 사용한다.
범주형 분포의 확률 질량 함수 (PMF)
확률 변수가 X가 k개의 가능한 범주를 가질 때, 범주형 분포는 이렇게 표현된다.
각 범주 i에 대한 확률은:
각 범주의 확률을 더하면 항상 1이 되어야 한다.
기댓값과 분산
범주형 분포의 기댓값은 개별 확률과 범주의 값을 이용해서 계산된다.
범주형 분포의 활용
- 자연어 처리 (NLP): 단어를 카테고리로 분류 (예: 단어 하나가 문장에서 등장할 확률)
- 게임 확률 계산: 보드 게임에서 특정 이벤트가 발생할 확률 계산
- 마케팅: 고객이 특정 브랜드를 선택할 확률 모델링
범주형 분포는 다항 분포(Multinomial Distribution)의 기본 단위이다.
예제: 주사위 던지기
일반적인 6면 주사위를 던질 때, 각 면이 나올 확률이 같다면:
주사위의 각 숫자는 동일한 확률로 나온다.