- Tree
- drf
- distinct
- regexp
- N:1
- Article & User
- outer join
- SQL
- M:N
- ORM
- create
- 백트래킹
- 트리
- Vue
- update
- Queue
- stack
- migrations
- 통계학
- 그리디
- 이진트리
- DB
- 뷰
- Django
- 쟝고
- count
- 큐
- 스택
- delete
- 완전검색
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
목록데이터 사이언스/수리 통계학 (59)
데이터 분석 기술 블로그

기댓값(Expected Value)은 확률 변수의 '평균적 결과'를 나타내는 개념이다.통계에서 말하는 '평균(mean)'과 거의 같은 뜻이지만, 확률 분포에 기반한 수학적 정의를 갖고 있다.이산형 확률 변수의 기댓값 각 값 x에 그 확률을 곱해서 다 더한 것 → 가중 평균(weighted average)연속형 확률 변수의 기댓값연속 확률 변수 X의 확률 밀도 함수(PDF)가 f(x) 일 때: 이산형과 마찬가지로 값 × 확률의 '무한한 합'인 적분 형태기댓값의 의미장기적인 평균 결과무작위 시행을 매우 많이 반복했을 때의 평균확률 모델에서 중심위치(중심성)를 나타내는 지표조건: 기댓값이 존재하려면→ 절댓값을 포함한 기댓값이 유한해야 실제 기댓값도 정의됨

문제 정의두 연속 확률 변수 X, Y의 합: 이때 Z의 확률 밀도 함수 fZ(z)는 다음과 같이 계산된다: 이게 바로 연속 확률 변수의 컨볼루션(convolution) 공식이다.이산 확률 변수의 컨볼루션이산형에서는 합 대신 합성곱(SUM of PMFs)을 사용한다: → 실제로는 두 PMF를 디스크리트 컨볼루션(discrete convolution)하는 것과 동일예제 1: 균등 분포 U(0, 1) + U(0, 1)예제 2: 정규분포의 합 정규분포는 합을 취해도 정규분포 형태 유지→ 굳이 적분할 필요 없이 공식으로 해결 가능

기본 개념 → 그러면 Y의 확률 밀도 함수는 다음과 같이 계산된다: 또는 반대로 표현하면:야코비 행렬 (Jacobian Matrix)행렬식 ∣ det J ∣은 변환된 공간의 면적/부피 보정 요인(확률 보존을 위한 스케일 조정)예제: 극좌표 변환 이걸 극좌표로 변환: 등방성 분포가 원형 대칭으로 잘 표현됨.

이산형 확률 변수들이 여러 개일 때, 그들을 변환했을 경우 확률이 어떻게 바뀌는지 알아보자.기본 개념여러 개의 이산 확률 변수 X1, X2, …, Xn가 있을 때,이들을 어떤 함수로 변환하여 새로운 확률 변수 Y1, Y2, …를 정의할 수 있어.확률 계산 방식변환된 변수 Y의 확률을 구하려면,원래 변수 공간에서 Y = y를 만족하는 모든 (x1, x2, … ) 조합의 확률을 더해서 구해야 해 한다.즉, 다대일 함수일 경우, 하나의 y에 해당하는 여러 x 값을 모두 더한다.예제 1: 두 이진 변수의 합 Y ∼ Binomial(2, p)→ 이항 분포로의 변환예제 2: 다항 분포 → 범주 합치기 → Y는 X1, X2 범주의 총합 (ex: "찬성 + 보통")Y ∼ Binomial(n, p1 + p2)

Multinomial Distribution (다항 분포)다항 분포(Multinomial Distribution)는 여러 개의 범주형 결과가 나올 수 있는 시행을 여러 번 반복했을 때의 분포이다. 정의한 번의 시행에서 K개의 결과 중 하나가 나옴 (예: 동전 2면 → 이항, 주사위 6면 → 다항).시행을 n번 반복했을 때, 각 범주가 나온 횟수를 벡터로 표현.확률 질량 함수 (PMF) 이항 분포: 은 K = 2일 때의 특별한 경우이다.기댓값과 공분산기댓값: 공분산: 서로 다른 범주 간에는 음의 공분산(한쪽이 많으면 다른 쪽은 적음)예제주사위(6면)를 10번 던졌을 때, 각 면이 나온 횟수의 분포는?

다변량 정규분포(Multivariate Normal Distribution)는 여러 개의 확률 변수가 정규분포를 따르며 서로 상관관계를 가질 수 있는 분포이다.머신러닝, 통계, 신호 처리 등에서 매우 중요한 분포다. 확률 밀도 함수 (PDF)이 식은 1차원 정규분포의 확장이라고 보면 된다.중심은 평균 μ, 형태는 공분산 행렬 Σ에 의해 결정된다.성질주변 분포도 정규 분포→ 전체가 다변량 정규 분포를 따르면, 부분 벡터도 정규 분포를 따름 조건부 분포도 정규 분포→ 일부 변수를 조건으로 고정했을 때 나머지 변수의 분포도 여전히 정규 분포 선형 변환에도 안정적 공분산 행렬의 고유벡터 방향으로 타원 형태→ 등고선은 타원, 중심은 μ예제 주변 분포는 각각 정규 분포조건부 분포도 정규 분포

확률 벡터란?확률 변수 여러 개를 벡터 형태로 묶은 것이 확률 벡터이다. 예:이때 X는 n차원 확률 벡터 (random vector)각 Xi는 확률 변수이고, 전체가 하나의 다변량 확률 분포를 따르게 된다.다변량 분포(Multivariate Distribution)확률 벡터 X의 분포는 다음과 같은 성분들로 구성된다:결합 확률 밀도 함수 (Joint PDF): 주변 분포 (Marginal Distribution):각 변수에 대해 나머지를 적분하여 구함. 조건부 분포 (Conditional Distribution):일부 변수를 조건으로 고정한 후 나머지의 분포를 분석.기댓값 벡터와 공분산 행렬다변량 확률 벡터의 대표적인 두 가지 통계량은 다음과 같다: 기대값 벡터 (Mean Vector) 공분산 행렬 ..

Independence (독립성)확률 변수 X와 Y가 독립(independent)이라는 것은 한 변수가 다른 변수의 값에 전혀 영향을 주지 않는다는 의미이다.독립의 정의 (이산형/연속형 공통)확률 변수 X와 Y가 독립이려면, 모든 x, y에 대해 다음이 성립해야 한다: 또는 연속형 확률 변수라면: 즉, 결합 확률(또는 밀도)이 각 변수의 곱으로 표현될 수 있으면 독립이다.조건부 확률로 보는 독립또는 이렇게도 표현 가능하다: 조건부 확률이 원래 확률과 같으면 → 정보가 추가돼도 변하지 않음 → 독립독립 vs 상관관계독립 ⇒ 상관없음 (correlation = 0)BUT 상관 없음 ⇏ 독립예제 1: 이산형 독립 여부 확인 X \ Y 12310.20.30.520.30.20.5합0.50.51.0 따라서 X와 Y..