[AI 스쿨 1기] 6주차 DAY 4
출처 : https://github.com/sujiny-tech/k-digital-training-AI-dev/blob/main/Machine-Learning-basics/Linear%20Models%20for%20Classification.md
확률적 식별 모델 (Probabilistic discriminative model)
x가 주어졌을 때, 클래스의 확률을 x에 관한 함수로 가정하고, 파라미터를 바로 구하는 모델
로지스틱 회귀(Logistic regression) : 대표적인 방법✨
클래스 C1의 사후 확률 = 특성벡터
의 선형함수가 logistic sigmoid 를 통과 함수

이때, 입력함수 x대신 비선형 기저함수
사용함.
위 식의 logistic sigmoid 함수 : 
클래스 C2의 사후 확률은 다음과 같음.

가 M차원 일 때, 구해야할 파라미터 w의 개수는 M
셍성모델의 경우에는, M(M+5)/2+1개의 파라미터 구해야함
이에 반면, 로지스틱 회귀는 훨씬더 작은 M의 linear한 개수의 파라미터만 구해도 됨.
최대우도해
데이터 셋 : 
우도함수

음의 로그우도

모수 추정을 위해 사용하며, 이는 크로스 엔트로피 에러함수(cross entropy error function)❗
크로스 엔트로피(cross entropy error function)
정보이론에서 
이산확률변수의 경우, 
일반적으로 크로스 엔트로피가 최소화될 때, 두 확률분포의 차이가 최소화
따라서, 에러함수 최소화 = 우도 최대화 = 목표 변수(분포)와 예측값 분포 차이 최소화❗
에러함수 w의 gradient

이때,
으로 나타낼 수 있음.
따라서,
이므로
전체적인 에러 함수 w의 gradient는 다음과 같음.

다중 클래스 로지스틱 회귀(Multiclass logistic regression)
또는 소프트맥스 회귀(Softmax regression) 라고 함.


샘플 x가 주어지면 소프트맥스 회귀 모델이 각 클래스에 대한 점수 계산
이에 소프트맥스 함수를 적용해서 각 클래스의 확률 추정, 확률이 가장 큰 클래스 선택(모든 확률의 합=1)
우도함수
특성 벡터
를 위한 목표벡터
는 클래스에 해당하는 하나의 원소만 1(나머지 0)인 1-of-k 인코딩 방법으로 표현

이며,
:
를 원소로 갖는 N x K 크기의 행렬
음의 로그 우도
위의 우도함수를 음의 로그를 취하면,

에러함수 최소화 → 파라미터 구하기(
에 대한 gradient)
하나의 샘플에 대한 에러에 대해 아래와 같이 정의하면,

에 대한 gradient

풀이는 다음과 같음
결과적으로, 다음과 같음❗

✨️ 공부하면서 참고한 사이트
[Statistics 110] 4강- 조건부 확률 (Conditional Probability)
Present Part [4 / 34]
포함배제의 원리 추가 설명
P(A1⋃⋯⋃AK)=n!(n−k)!
n개 중 k개의 카드에 대해서 어떤 수 m을 가진 카드가 m번째에 있을 확률은 위 식과 같다. 그런데 여기서 n개 중 k개의 카드에 대해서 적용해야 하므로
(kn)=(n−k)!k!n!
다음과 같은 식이 구해지며 이를 곱해 k!1만 남게 된다.
P(⋃j=1nAj)=1−2!1+⋯+(−1)n+1n!1
P(no match)=P(∩j=1nAjc)=1−1+2!1−3!1+⋯+(−1)nn!1 ≈ e1 => 테일러 시리즈
Independence
정의
P(A∩B)=P(A)P(B)이 성립할 때, 사건 A와 B는 독립이다. A가 일어났다고 해서 B가 일어날 지에 대한 이야기는 하지 못한다. (배반과의 차이점 => 배반 : A가 일어났다면 B는 일어날 수가 없다.)
A, B, C의 독립
P(A∩B∩C)=P(A)P(B)P(C)
P(A∩B)=P(A)P(B),P(B∩C)=P(B)P(C),P(B∩C)=P(B)P(C),P(C∩A)=P(C)P(A),P(C∩A)=P(C)P(A)
전체 독립과 쌍으로 독립을 확인해야 세 사건이 독립임을 확신할 수 있다.
Newton-Pepys Problem(1693)
공정한 주사위를 갖고 있을 때, 다음 중 어떤 경우가 발생할 확률이 가장 높은가?
a) 6개의 주사위 중에서 적어도 한 개가 ‘6’이 나온 경우
b) 12개의 주사위 중에서 적어도 두 개가 ‘6’이 나온 경우
c) 18개의 주사위 중에서 적어도 세 개가 ‘6’이 나온 경우
→ 답은 (a)
P(A)=1−(65)6≈0.665
P(B)=1−(6이 한번도 안나올 확률 + 6이 딱 한번 나올 확률) =1−{(65)12+61×(65)11}≈0.619
P(C)=1−k=0∑2P(C)=(k18)(61)k(65)18−k≈0.597
∴ (a)가 가장 발생할 확률이 높다.
Conditional Probability
새로운 정보를 얻었을 때, 기존의 ‘믿음/불확실성(uncertainty)’을 어떻게 업데이트하는가?
정의
P(A∣B)=P(B)P(A∩B)P(A∣B)=P(B)P(A∩B),(P(B)>0P(B)>0이다)
직관적 접근 1) '조약돌 세계관'
직관적 접근 2) '빈도학파(Frequentist) 세계관'
같은 실험을 무한 번 반복할 수 있다면,
정리
P(A∩B)=P(B)P(A∣B)=P(A)P(B∣A)
P(A1,A2,...An)=P(A1)P(A2∣A1)P(A3∣A1,A2)...P(An∣A1,...,An−1)
P(A∣B)=P(B)P(B∣A)P(A)P(A∣B)=P(B)P(B∣A)P(A) → 이를 베이즈의 정리(Bayes’ Theorem)라 한다.