[AI 스쿨 1기] 6주차 DAY 4
출처 : https://github.com/sujiny-tech/k-digital-training-AI-dev/blob/main/Machine-Learning-basics/Linear%20Models%20for%20Classification.md
확률적 식별 모델 (Probabilistic discriminative model)
x가 주어졌을 때, 클래스의 확률을 x에 관한 함수로 가정하고, 파라미터를 바로 구하는 모델
로지스틱 회귀(Logistic regression) : 대표적인 방법✨
가 M차원 일 때, 구해야할 파라미터 w의 개수는 M
셍성모델의 경우에는, M(M+5)/2+1개의 파라미터 구해야함
이에 반면, 로지스틱 회귀는 훨씬더 작은 M의 linear한 개수의 파라미터만 구해도 됨.
최대우도해
음의 로그우도

모수 추정을 위해 사용하며, 이는 크로스 엔트로피 에러함수(cross entropy error function)❗
크로스 엔트로피(cross entropy error function)
일반적으로 크로스 엔트로피가 최소화될 때, 두 확률분포의 차이가 최소화
따라서, 에러함수 최소화 = 우도 최대화 = 목표 변수(분포)와 예측값 분포 차이 최소화❗
다중 클래스 로지스틱 회귀(Multiclass logistic regression)
또는 소프트맥스 회귀(Softmax regression) 라고 함.


샘플 x가 주어지면 소프트맥스 회귀 모델이 각 클래스에 대한 점수 계산
이에 소프트맥스 함수를 적용해서 각 클래스의 확률 추정, 확률이 가장 큰 클래스 선택(모든 확률의 합=1)
✨️ 공부하면서 참고한 사이트
[Statistics 110] 4강- 조건부 확률 (Conditional Probability)
Present Part [4 / 34]
P(A1⋃⋯⋃AK)=n!(n−k)!
n개 중 k개의 카드에 대해서 어떤 수 m을 가진 카드가 m번째에 있을 확률은 위 식과 같다. 그런데 여기서 n개 중 k개의 카드에 대해서 적용해야 하므로
(kn)=(n−k)!k!n!
다음과 같은 식이 구해지며 이를 곱해 k!1만 남게 된다.
P(⋃j=1nAj)=1−2!1+⋯+(−1)n+1n!1
P(no match)=P(∩j=1nAjc)=1−1+2!1−3!1+⋯+(−1)nn!1 ≈ e1 => 테일러 시리즈
P(A∩B)=P(A)P(B)이 성립할 때, 사건 A와 B는 독립이다. A가 일어났다고 해서 B가 일어날 지에 대한 이야기는 하지 못한다. (배반과의 차이점 => 배반 : A가 일어났다면 B는 일어날 수가 없다.)
P(A∩B∩C)=P(A)P(B)P(C)
P(A∩B)=P(A)P(B),P(B∩C)=P(B)P(C),P(B∩C)=P(B)P(C),P(C∩A)=P(C)P(A),P(C∩A)=P(C)P(A)
전체 독립과 쌍으로 독립을 확인해야 세 사건이 독립임을 확신할 수 있다.
Newton-Pepys Problem(1693)
공정한 주사위를 갖고 있을 때, 다음 중 어떤 경우가 발생할 확률이 가장 높은가?
a) 6개의 주사위 중에서 적어도 한 개가 ‘6’이 나온 경우
b) 12개의 주사위 중에서 적어도 두 개가 ‘6’이 나온 경우
c) 18개의 주사위 중에서 적어도 세 개가 ‘6’이 나온 경우
→ 답은 (a)
P(A)=1−(65)6≈0.665
P(B)=1−(6이 한번도 안나올 확률 + 6이 딱 한번 나올 확률) =1−{(65)12+61×(65)11}≈0.619
P(C)=1−k=0∑2P(C)=(k18)(61)k(65)18−k≈0.597
∴ (a)가 가장 발생할 확률이 높다.
Conditional Probability
새로운 정보를 얻었을 때, 기존의 ‘믿음/불확실성(uncertainty)’을 어떻게 업데이트하는가?
P(A∣B)=P(B)P(A∩B)P(A∣B)=P(B)P(A∩B),(P(B)>0P(B)>0이다)
직관적 접근 1) '조약돌 세계관'
직관적 접근 2) '빈도학파(Frequentist) 세계관'
같은 실험을 무한 번 반복할 수 있다면,
P(A∩B)=P(B)P(A∣B)=P(A)P(B∣A)
P(A1,A2,...An)=P(A1)P(A2∣A1)P(A3∣A1,A2)...P(An∣A1,...,An−1)
P(A∣B)=P(B)P(B∣A)P(A)P(A∣B)=P(B)P(B∣A)P(A) → 이를 베이즈의 정리(Bayes’ Theorem)라 한다.