(AI Math 8강) 베이즈 통계학 맛보기

210805

조건부 확률

베이즈 통계학 맛보기인데 왜 조건부 확률이 나와요?

  • 베이즈 통계학의 기본이 조건부 확률 이다!

P(A|B)

  • 어떤 사건 B가 일어난 상황에서 사건 A가 발생할 확률이다!

베이즈 정리는 조건부확률을 이용해서 정보를 갱신하는 방법을 알려준다.

베이즈 정리

  • D : 새로 관찰하는 데이터

  • Theta : 우리가 관찰하는 파라미터, 모수

  • 사후확률

    • 데이터가 주어졌을 때 이 파라미터(또는 가설)가 성립할 확률

    • 데이터가 주어진 후를 의미하므로 사후 라고 한다

  • 사전확률

    • 데이터가 주어지기 전에 셍누 가설이나 파라미터가 성립할 확률이다.

  • 가능도

    • 우리가 세운 가설에서 이 데이터가 등장할 확률

  • 증거

    • 데이터 전체의 분포

예를 들어 다음과 같은 예가 있다고 하자

COVID-99의 발병률이 10%로 알려져있다. COVID-99에 실제로 걸렸을 때 검진될 확률은99%, 실제로 걸리지 않았을때 오검진될 확률이 1%라고 할때, 어떤사람이질병에 걸렸다고 검진결과가 나왔을때 정말로 COVID99에 감염되었을 확률은?

COVID-99의 발병률이 10%로 알려져있다.

  • 사전에 있던 가설이 성립할 확률이다. 따라서 사전 확률

    • 사전에 : 알려져있다

    • 가설 : COVID-99의 발병률은 10% 정도일 것이다

    • 발병하다 : theta

실제로 걸렸을 때 검진된 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1%

  • 가능도

    • 실제로 걸렸다 : 실제 데이터를 관찰한 것

    • 걸렸을 : 조건부를 의미

    • 검진된 확률 : 데이터가 가설에 알맞다 => D

    • 확률은 99% : P(D |θ\theta) = 0.99

    • 걸리지 않았을 때 오검진될 확률이 1% : P(D |θC\theta^C) = 0.01

사후확률을 구하려면 한가지가 더 필요하다. 바로 증거, Evidence 증거는 결합확률함수로 구할 수 있다.

  • 전체 확률의 법칙과도 통한다

어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은?

  • 사후확률

    • 어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 : 조건부를 의미

    • COVID-99에 감염되었을 확률 : P(D)

    • 따라서 P(D|θ\theta) 를 의미한다.

근데, COVID-99에 걸렸을 때 검진될 확률이 99% 라면, 당연히 믿을만한 검진 아니야?

  • 아니다.

  • 만약 실제로 걸리지 않았을 때, 걸렸다고 오검진할 확률이 1%가 아니라 10%라고 해보자. 그러면 다음과 같이 신뢰도가 절반으로 뚝 떨어진다.

Confusion Matrix, 혼동행렬

  • TP : 양성이 나왔을 때 진짜 양성인 경우

  • TN : 음성이 나왔을 때 진짜 음성인 경우

  • FP : 양성이 나왔을 때 실제로는 음성인 경우, 1종 오류

  • FN : 음성이 나왔는데 실제로는 양성인 경우, 2종 오류

데이터에 따라서 1종 오류를 줄이느냐 2종 오류를 줄이느냐가 중요하다. 가령 암환자에 관한 진단은 2종 오류를 줄여야 한다.

  • 암이 아닌데 암이라고 하는 것보다 암인데 암이 아니라고 진단하는 것이 심각성이 더 크기 때문

이 때 각 확률에 대한 정의가 있다.

  • P(Dθ) P(D|\theta) : 민감도, Recall

  • P(DθC) P(D|\theta^C) : 오탐, False alarm

  • P(DCθC) P(D^C|\theta^C) : 특이도, Specificity

정밀도

  • TP / (TP + FP)

  • FP의 비율이 줄어들 수록 정밀도가 증가한다

베이즈 정리를 통한 정보의 갱신

새로운 정보를 얻었을 때 베이즈 정리를 통해 사후확률을 갱신할 수 있다. 이전에 사용했던 사후확률을 현재에 사전확률에 대입해서 새로운(갱신된) 사후확률을 구할 수 있다.

  • 실제로 이러한 과정을 통해 모델을 업데이트하고 정확도를 높일 수 있다

  • 이 때 사후확률 뿐만 아니라 증거까지 갱신된다.

이전에 양성판정을 받았는데, 이번에도 양성판정을 받았다면 진짜 병에 걸렸을 확률은 어떻게 될까?

이전에 양성판정을 받음

이번에도 양성판정을 받았다면

  • 두번째 양성판정에 대한 확률이 굉장히 커졌다.

  • 세번째 양성판정에 대한 확률은 99.1% 이다.

베이즈 정리의 큰 장점은 데이터를 추가할 때마다 새로운 사후확률을 얻을 수 있다는 것이다.

조건부 확률 >>> 인과관계?

조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계를 추론할 때는 함부로 사용해서는 안된다.

인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하다.

시나리오 A

우리 병원이 10년동안 의료기기의 유지보수와 병원 인력을 최우선으로 관리해서 진단 정확도가 95%가 나왔다

시나리오 B

우리 병원은 10년동안 최우수 병원이었는데, 발병을 잘 알수없는 질병이 등장하면서 진단 정확도가 72%가 나왔따

  • 위에서 보듯이 조건부확률 기반은 높은 정확도를 내지만 여러 변수에 의해 크게 하락할 수 있다.

  • 그러나 인과관계 기반 예측모형은 조건부확률 만큼 높은 정확도를 내지는 못하지만 데이터분포의 강건한 모델을 만드는 것이 가능하여 여러 시나리오에도 예측정확도가 크게 변하지 않음을 보장할 수 있다

인과관계를 알아내기 위해서는 중첩요인의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다.

  • 이러한 중첩요친, Confounding factor는 데이터분포에 따라 모델의 성능을 감소시키는 요인이다.

  • 예를 들어 키가 클수록 지능이 높다는 말은 사실이지만 지능이 높다는 결과에 대해서 키가 크다는 것이 원인이 될 수 없다. 바로 '나이' 라는 중첩요인을 고려하지 않았기 때문

이러한 인과관계 추론은 심슨의 역설과 관련이 있다.

  • 심슨의 역설을 피하려면 군집별로 데이터를 나누고, 나눈 데이터를 함께 비교하여 교차분석하는 것이 중요하다.

Last updated

Was this helpful?