20 Tue

[Statistics 110] 21강- 공분산과 상관계수(Covariance and Correlation)

공분산

  • X와 Y를 독립적일 때만 E(XY) 와 E(X)E(Y) 식과 같다

    • 우리는 독립적이지 않을때도 공분산의 정의가 궁금하다.

    • 기댓값의 선형성을 이용해 나온 식

  • 상관은 공분산을 통해 정의되어 있다.

  1. Cov(X, X) = E(X)^2 - E(X^2) 이기 때문

  2. 대칭성

  3. 상수의 평균은 0이므로 곱하면 늘 0이 나온다

  4. 만약, Cov(cX, cY) 일 경우는 c^2

  5. 이중선형성

    • 한 좌표를 보고 고정하고 다른 좌표만 보면 선형성으로 보인다는 이야기

    • X를 고정하고 Y와 Z를 보면 선형적으로 나눌 수 있다

    • 잘 이해는 안됨

  6. 5번과 같은 원리. 곱셈의 분배법칙과 비슷해 보인다

  7. 분산의 합 정의

    • 5번을 가지고 설명할 수 있다

    • Cov(X1+X2, X1+X2) = VAR(X1+X2)

    • = COv(X1 + X2, X1) + Cov(X1 + X2, X2)

    • = ...

  • 공분산이 0이라고 해도 독립은 아니다.

  • 독립일 때 공분산이 0일 뿐이다.

  • E(Z^3)과 E(Z)는 홀수차 적률이기 때문에 0이 된다.

상관

  • 여기서 SD는 분산의 제곱근을 의미한다.

  • 정의에 두번째 등식은 상관에서 정규화를 먼저 하고 공분산을 계산하는 과정

    • 공분산은 단위에 대한 통일 개념이 없기 때문에 정규화를 진행하면 공분산 수치에 대한 의미가 생긴다.

  • Cov(X) = Cov(X-EX) 이기 때문에 굳이 명시할 필요는 없지만 표준화에 대한 직관을 준다

    • EX는 단지 상수를 더하고 빼준 것으로 보는 것

  • 증명 방법은 코시 슈바르츠 방정식을 쓴다

    • WLOG일반성을 잃지 않고 라는 뜻이다

    • X와 Y가 정규화 되어있다고 가정하는 것

  • Var(X+Y)와 Var(X-Y)는 모두 0보다 커야 되기 때문에 해당 부등식을 결합하면 -1 <= p <= 1 이 된다.

  • Xj X_j 는 j번째 범주에 속한 사람 혹은 물건의 수이다.

    • 따라서 (X1,...,Xk) (X_1 , ... , X_k) 는 다항분포이다.

  • pj p_j 는 j번째 범수에 속할 확률(이항 분포)

  • Cov(Xi,Xj) Cov(X_i, X_j) 를 찾는 것이 목표

    • 구하는 메커니즘은 각각의 확률변수의 분산값이 하나의 확률변수(두 개의 확률변수의 합, 독립임)의 분산값과 같다는 논리

Last updated

Was this helpful?