(AI Math 8강) 베이즈 통계학 맛보기
210805
Last updated
Was this helpful?
210805
Last updated
Was this helpful?
베이즈 통계학 맛보기인데 왜 조건부 확률이 나와요?
베이즈 통계학의 기본이 조건부 확률 이다!
P(A|B)
어떤 사건 B가 일어난 상황에서 사건 A가 발생할 확률이다!
베이즈 정리는 조건부확률을 이용해서 정보를 갱신하는 방법을 알려준다.
D : 새로 관찰하는 데이터
Theta : 우리가 관찰하는 파라미터, 모수
사후확률
데이터가 주어졌을 때 이 파라미터(또는 가설)가 성립할 확률
데이터가 주어진 후를 의미하므로 사후
라고 한다
사전확률
데이터가 주어지기 전에 셍누 가설이나 파라미터가 성립할 확률이다.
가능도
우리가 세운 가설에서 이 데이터가 등장할 확률
증거
데이터 전체의 분포
예를 들어 다음과 같은 예가 있다고 하자
COVID-99의 발병률이 10%로 알려져있다. COVID-99에 실제로 걸렸을 때 검진될 확률은99%, 실제로 걸리지 않았을때 오검진될 확률이 1%라고 할때, 어떤사람이질병에 걸렸다고 검진결과가 나왔을때 정말로 COVID99에 감염되었을 확률은?
COVID-99의 발병률이 10%로 알려져있다.
사전에 있던 가설이 성립할 확률이다. 따라서 사전 확률
사전에 : 알려져있다
가설 : COVID-99의 발병률은 10% 정도일 것이다
발병하다 : theta
실제로 걸렸을 때 검진된 확률은 99%, 실제로 걸리지 않았을 때 오검진될 확률이 1%
가능도
실제로 걸렸다 : 실제 데이터를 관찰한 것
걸렸을 때 : 조건부를 의미
검진된 확률 : 데이터가 가설에 알맞다 => D
사후확률을 구하려면 한가지가 더 필요하다. 바로 증거, Evidence 증거는 결합확률함수로 구할 수 있다.
전체 확률의 법칙과도 통한다
어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은?
사후확률
어떤 사람이 질병에 걸렸다고 검진결과가 나왔을 때 : 조건부를 의미
COVID-99에 감염되었을 확률 : P(D)
근데, COVID-99에 걸렸을 때 검진될 확률이 99% 라면, 당연히 믿을만한 검진 아니야?
아니다.
만약 실제로 걸리지 않았을 때, 걸렸다고 오검진할 확률이 1%가 아니라 10%라고 해보자. 그러면 다음과 같이 신뢰도가 절반으로 뚝 떨어진다.
TP : 양성이 나왔을 때 진짜 양성인 경우
TN : 음성이 나왔을 때 진짜 음성인 경우
FP : 양성이 나왔을 때 실제로는 음성인 경우, 1종 오류
FN : 음성이 나왔는데 실제로는 양성인 경우, 2종 오류
데이터에 따라서 1종 오류를 줄이느냐 2종 오류를 줄이느냐가 중요하다. 가령 암환자에 관한 진단은 2종 오류를 줄여야 한다.
암이 아닌데 암이라고 하는 것보다 암인데 암이 아니라고 진단하는 것이 심각성이 더 크기 때문
이 때 각 확률에 대한 정의가 있다.
정밀도
TP / (TP + FP)
FP의 비율이 줄어들 수록 정밀도가 증가한다
새로운 정보를 얻었을 때 베이즈 정리를 통해 사후확률을 갱신할 수 있다. 이전에 사용했던 사후확률을 현재에 사전확률에 대입해서 새로운(갱신된) 사후확률을 구할 수 있다.
실제로 이러한 과정을 통해 모델을 업데이트하고 정확도를 높일 수 있다
이 때 사후확률 뿐만 아니라 증거까지 갱신된다.
이전에 양성판정을 받았는데, 이번에도 양성판정을 받았다면 진짜 병에 걸렸을 확률은 어떻게 될까?
이전에 양성판정을 받음
이번에도 양성판정을 받았다면
두번째 양성판정에 대한 확률이 굉장히 커졌다.
세번째 양성판정에 대한 확률은 99.1% 이다.
베이즈 정리의 큰 장점은 데이터를 추가할 때마다 새로운 사후확률을 얻을 수 있다는 것이다.
조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계를 추론할 때는 함부로 사용해서는 안된다.
인과관계는 데이터 분포의 변화에 강건한 예측모형을 만들 때 필요하다.
시나리오 A
우리 병원이 10년동안 의료기기의 유지보수와 병원 인력을 최우선으로 관리해서 진단 정확도가 95%가 나왔다
시나리오 B
우리 병원은 10년동안 최우수 병원이었는데, 발병을 잘 알수없는 질병이 등장하면서 진단 정확도가 72%가 나왔따
위에서 보듯이 조건부확률 기반은 높은 정확도를 내지만 여러 변수에 의해 크게 하락할 수 있다.
그러나 인과관계 기반 예측모형은 조건부확률 만큼 높은 정확도를 내지는 못하지만 데이터분포의 강건한 모델을 만드는 것이 가능하여 여러 시나리오에도 예측정확도가 크게 변하지 않음을 보장할 수 있다
인과관계를 알아내기 위해서는 중첩요인의 효과를 제거하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다.
이러한 중첩요친, Confounding factor는 데이터분포에 따라 모델의 성능을 감소시키는 요인이다.
예를 들어 키가 클수록 지능이 높다는 말은 사실이지만 지능이 높다는 결과에 대해서 키가 크다는 것이 원인이 될 수 없다. 바로 '나이' 라는 중첩요인을 고려하지 않았기 때문
심슨의 역설을 피하려면 군집별로 데이터를 나누고, 나눈 데이터를 함께 비교하여 교차분석하는 것이 중요하다.
확률은 99% : P(D |) = 0.99
걸리지 않았을 때 오검진될 확률이 1% : P(D |) = 0.01
따라서 P(D|) 를 의미한다.
: 민감도, Recall
: 오탐, False alarm
: 특이도, Specificity
이러한 인과관계 추론은 과 관련이 있다.