20 Tue
[Statistics 110] 21강- 공분산과 상관계수(Covariance and Correlation)
공분산

X와 Y를 독립적일 때만
E(XY) 와 E(X)E(Y)
식과 같다우리는 독립적이지 않을때도 공분산의 정의가 궁금하다.
기댓값의 선형성을 이용해 나온 식
상관은 공분산을 통해 정의되어 있다.

Cov(X, X) = E(X)^2 - E(X^2) 이기 때문
대칭성
상수의 평균은 0이므로 곱하면 늘 0이 나온다
만약, Cov(cX, cY) 일 경우는 c^2
이중선형성
한 좌표를 보고 고정하고 다른 좌표만 보면 선형성으로 보인다는 이야기
X를 고정하고 Y와 Z를 보면 선형적으로 나눌 수 있다
잘 이해는 안됨
5번과 같은 원리. 곱셈의 분배법칙과 비슷해 보인다
분산의 합 정의
5번을 가지고 설명할 수 있다
Cov(X1+X2, X1+X2) = VAR(X1+X2)
= COv(X1 + X2, X1) + Cov(X1 + X2, X2)
= ...

공분산이 0이라고 해도 독립은 아니다.
독립일 때 공분산이 0일 뿐이다.
E(Z^3)과 E(Z)는 홀수차 적률이기 때문에 0이 된다.
상관

여기서 SD는 분산의 제곱근을 의미한다.
정의에 두번째 등식은 상관에서 정규화를 먼저 하고 공분산을 계산하는 과정
공분산은 단위에 대한 통일 개념이 없기 때문에 정규화를 진행하면 공분산 수치에 대한 의미가 생긴다.
Cov(X) = Cov(X-EX) 이기 때문에 굳이 명시할 필요는 없지만 표준화에 대한 직관을 준다
EX는 단지 상수를 더하고 빼준 것으로 보는 것
증명 방법은 코시 슈바르츠 방정식을 쓴다
WLOG
는일반성을 잃지 않고
라는 뜻이다X와 Y가 정규화 되어있다고 가정하는 것
Var(X+Y)와 Var(X-Y)는 모두 0보다 커야 되기 때문에 해당 부등식을 결합하면 -1 <= p <= 1 이 된다.

는 j번째 범주에 속한 사람 혹은 물건의 수이다.
따라서 는 다항분포이다.
는 j번째 범수에 속할 확률(이항 분포)
를 찾는 것이 목표
구하는 메커니즘은 각각의 확률변수의 분산값이 하나의 확률변수(두 개의 확률변수의 합, 독립임)의 분산값과 같다는 논리

Last updated
Was this helpful?