- N:1
- Queue
- stack
- Article & User
- regexp
- update
- Django
- outer join
- 백트래킹
- 뷰
- ORM
- SQL
- Vue
- 그리디
- delete
- 스택
- migrations
- count
- Tree
- distinct
- M:N
- DB
- 쟝고
- 통계학
- 큐
- drf
- create
- 완전검색
- 이진트리
- 트리
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
목록데이터 사이언스 (152)
데이터 분석 기술 블로그

공분산(Covariance)과 상관계수(Correlation)는 두 확률 변수가 함께 어떻게 변하는지를 수치적으로 표현하는 도구이다.공분산 (Covariance)공분산의 계산 공식상관계수 (Correlation Coefficient)공분산을 정규화(normalize)한 값:독립성과의 관계 독립이면 항상 공분산 = 0하지만 공분산 = 0이라고 해서 독립인 것은 아님!(비선형 관계가 있을 수 있음)

확률 분포의 형태(shape)를 수치적으로 설명하는 도구인 모멘트(moment), 비대칭도(skewness), 첨도(kurtosis)는 분포가 평균을 기준으로 얼마나 치우쳐 있는지, 또는 꼭대기가 뾰족한지 평평한지 등을 알 수 있다.모멘트(Moment)k차 모멘트는 다음과 같이 정의된다:중심 모멘트(Central Moment)중심을 기준으로 한 모멘트: μ2 = Var(X): 분산중심 모멘트는 분포의 중심(평균)을 기준으로 계산함→ 모양을 설명하는 데 유리비대칭도(Skewness)분포의 좌우 비대칭 정도를 나타내는 수치: 첨도(Kurtosis)

분산(Variance)은 확률 변수의 값이 평균(기댓값)을 기준으로 얼마나 퍼져 있는지(산포도)를 수치로 나타내는 척도이다.기댓값이 '중심'이라면, 분산은 '흩어짐의 정도'라고 생각하면 된다.정의 즉, 기댓값으로부터의 거리(오차)의 제곱의 평균→ 항상 0 이상이며, 값이 클수록 불확실성도 큼분산의 대체 공식 (shortcut formula)상수와의 연산 분산은 평균 이동에는 영향 없음,스케일(크기)에는 제곱 배로 커짐독립 확률 변수의 분산확률 변수 X, Y가 독립이라면: 일반적으로는 다음과 같이 공분산을 포함해야 한다:표준편차 (Standard Deviation)→ 분산은 제곱 단위라서, 원래 단위로 되돌릴 땐 표준편차를 사용

기댓값은 단순히 평균을 의미할 뿐만 아니라, 선형성(linearity)이라는 매우 강력한 수학적 성질을 갖고 있다.이 성질 덕분에 복잡한 확률 계산도 간단하게 정리할 수 있다.선형성 (Linearity)기댓값의 가장 핵심적인 성질은 선형성(linearity)이다. 확률 변수 간 독립 여부와 관계없이 항상 성립함분산은 독립성 여부에 영향을 받지만, 기댓값은 무조건 선형상수의 기댓값 무작위성이 없는 값의 기댓값은 그 자체이다.지표 함수의 기댓값최대값과 기댓값의 부등식기댓값과 함수 적용 예외적으로 선형 함수 g(x)=ax+b일 때만

기댓값(Expected Value)은 확률 변수의 '평균적 결과'를 나타내는 개념이다.통계에서 말하는 '평균(mean)'과 거의 같은 뜻이지만, 확률 분포에 기반한 수학적 정의를 갖고 있다.이산형 확률 변수의 기댓값 각 값 x에 그 확률을 곱해서 다 더한 것 → 가중 평균(weighted average)연속형 확률 변수의 기댓값연속 확률 변수 X의 확률 밀도 함수(PDF)가 f(x) 일 때: 이산형과 마찬가지로 값 × 확률의 '무한한 합'인 적분 형태기댓값의 의미장기적인 평균 결과무작위 시행을 매우 많이 반복했을 때의 평균확률 모델에서 중심위치(중심성)를 나타내는 지표조건: 기댓값이 존재하려면→ 절댓값을 포함한 기댓값이 유한해야 실제 기댓값도 정의됨

문제 정의두 연속 확률 변수 X, Y의 합: 이때 Z의 확률 밀도 함수 fZ(z)는 다음과 같이 계산된다: 이게 바로 연속 확률 변수의 컨볼루션(convolution) 공식이다.이산 확률 변수의 컨볼루션이산형에서는 합 대신 합성곱(SUM of PMFs)을 사용한다: → 실제로는 두 PMF를 디스크리트 컨볼루션(discrete convolution)하는 것과 동일예제 1: 균등 분포 U(0, 1) + U(0, 1)예제 2: 정규분포의 합 정규분포는 합을 취해도 정규분포 형태 유지→ 굳이 적분할 필요 없이 공식으로 해결 가능

기본 개념 → 그러면 Y의 확률 밀도 함수는 다음과 같이 계산된다: 또는 반대로 표현하면:야코비 행렬 (Jacobian Matrix)행렬식 ∣ det J ∣은 변환된 공간의 면적/부피 보정 요인(확률 보존을 위한 스케일 조정)예제: 극좌표 변환 이걸 극좌표로 변환: 등방성 분포가 원형 대칭으로 잘 표현됨.

이산형 확률 변수들이 여러 개일 때, 그들을 변환했을 경우 확률이 어떻게 바뀌는지 알아보자.기본 개념여러 개의 이산 확률 변수 X1, X2, …, Xn가 있을 때,이들을 어떤 함수로 변환하여 새로운 확률 변수 Y1, Y2, …를 정의할 수 있어.확률 계산 방식변환된 변수 Y의 확률을 구하려면,원래 변수 공간에서 Y = y를 만족하는 모든 (x1, x2, … ) 조합의 확률을 더해서 구해야 해 한다.즉, 다대일 함수일 경우, 하나의 y에 해당하는 여러 x 값을 모두 더한다.예제 1: 두 이진 변수의 합 Y ∼ Binomial(2, p)→ 이항 분포로의 변환예제 2: 다항 분포 → 범주 합치기 → Y는 X1, X2 범주의 총합 (ex: "찬성 + 보통")Y ∼ Binomial(n, p1 + p2)