14 Thu

[AI 스쿨 1기] 6주차 DAY 4

출처 : https://github.com/sujiny-tech/k-digital-training-AI-dev/blob/main/Machine-Learning-basics/Linear%20Models%20for%20Classification.md

확률적 식별 모델 (Probabilistic discriminative model)

  • x가 주어졌을 때, 클래스의 확률을 x에 관한 함수로 가정하고, 파라미터를 바로 구하는 모델

  • 로지스틱 회귀(Logistic regression) : 대표적인 방법✨

    • 클래스 C1의 사후 확률 = 특성벡터 의 선형함수가 logistic sigmoid 를 통과 함수

      이때, 입력함수 x대신 비선형 기저함수 사용함.

      위 식의 logistic sigmoid 함수 :

    • 클래스 C2의 사후 확률은 다음과 같음.

    • 가 M차원 일 때, 구해야할 파라미터 w의 개수는 M

      셍성모델의 경우에는, M(M+5)/2+1개의 파라미터 구해야함

      이에 반면, 로지스틱 회귀는 훨씬더 작은 M의 linear한 개수의 파라미터만 구해도 됨.

    • 최대우도해

      • 데이터 셋 :

      • 우도함수

      • 음의 로그우도

        모수 추정을 위해 사용하며, 이는 크로스 엔트로피 에러함수(cross entropy error function)

      • 크로스 엔트로피(cross entropy error function)

        • 정보이론에서

          이산확률변수의 경우,

        • 일반적으로 크로스 엔트로피가 최소화될 때, 두 확률분포의 차이가 최소화

          따라서, 에러함수 최소화 = 우도 최대화 = 목표 변수(분포)와 예측값 분포 차이 최소화

      • 에러함수 w의 gradient

        이때, 으로 나타낼 수 있음.

        따라서, 이므로

        전체적인 에러 함수 w의 gradient는 다음과 같음.

  • 다중 클래스 로지스틱 회귀(Multiclass logistic regression)

    • 또는 소프트맥스 회귀(Softmax regression) 라고 함.

      • 샘플 x가 주어지면 소프트맥스 회귀 모델이 각 클래스에 대한 점수 계산

      • 이에 소프트맥스 함수를 적용해서 각 클래스의 확률 추정, 확률이 가장 큰 클래스 선택(모든 확률의 합=1)

    • 우도함수

      • 특성 벡터 를 위한 목표벡터 는 클래스에 해당하는 하나의 원소만 1(나머지 0)인 1-of-k 인코딩 방법으로 표현

        이며,

        : 를 원소로 갖는 N x K 크기의 행렬

    • 음의 로그 우도

      위의 우도함수를 음의 로그를 취하면,

      • 에러함수 최소화 → 파라미터 구하기(에 대한 gradient)

        하나의 샘플에 대한 에러에 대해 아래와 같이 정의하면,

        에 대한 gradient

        풀이는 다음과 같음

        결과적으로, 다음과 같음❗

✨️ 공부하면서 참고한 사이트

[Statistics 110] 4강- 조건부 확률 (Conditional Probability)

Present Part [4 / 34]

포함배제의 원리 추가 설명

P(A1AK)=(nk)!n! P(A_1​⋃⋯⋃A_K​)={ (n-k)! \over n!}

n개 중 k개의 카드에 대해서 어떤 수 m을 가진 카드가 m번째에 있을 확률은 위 식과 같다. 그런데 여기서 n개 중 k개의 카드에 대해서 적용해야 하므로​​

(nk)=n!(nk)!k! {n \choose k} = { n! \over (n-k)!k! }

다음과 같은 식이 구해지며 이를 곱해 1k! {1 \over k!} 만 남게 된다.

P(j=1nAj)=112!++(1)n+11n! P( \bigcup_{j=1}^n A_j) = 1 - {1 \over 2!} + \cdots + (-1)^{n+1}{1 \over n!}

P(no  match)=P(j=1nAjc)=11+12!13!++(1)n1n! P(no \ \ match) = P( \cap _{j=1}^n A_j^c) = 1-1+{1 \over 2!} - {1 \over 3!} + \cdots + (-1)^n {1 \over n!} ≈ ​ ​1e {1 \over e} => 테일러 시리즈

Independence

정의

P(AB)=P(A)P(B) P(A∩B) = P(A)P(B)이 성립할 때, 사건 A와 B는 독립이다. A가 일어났다고 해서 B가 일어날 지에 대한 이야기는 하지 못한다. (배반과의 차이점 => 배반 : A가 일어났다면 B는 일어날 수가 없다.)

A, B, C의 독립

  • P(ABC)=P(A)P(B)P(C)P(A∩B∩C)= P(A)P(B)P(C)

  • P(AB)=P(A)P(B),P(BC)=P(B)P(C),P(BC)=P(B)P(C),P(CA)=P(C)P(A),P(CA)=P(C)P(A)P(A∩B)=P(A)P(B), P(B \cap C) = P(B)P(C),P(B∩C)=P(B)P(C), P(C \cap A) = P(C)P(A),P(C∩A)=P(C)P(A)

  • 전체 독립과 쌍으로 독립을 확인해야 세 사건이 독립임을 확신할 수 있다.

Newton-Pepys Problem(1693)

공정한 주사위를 갖고 있을 때, 다음 중 어떤 경우가 발생할 확률이 가장 높은가?

a) 6개의 주사위 중에서 적어도 한 개가 ‘6’이 나온 경우

b) 12개의 주사위 중에서 적어도 두 개가 ‘6’이 나온 경우

c) 18개의 주사위 중에서 적어도 세 개가 ‘6’이 나온 경우

→ 답은 (a)

P(A)=1(56)6​​0.665 P(A)=1−({5 \over 6})^6​​ \approx 0.665

P(B)=1 P(B) = 1 -(6이 한번도 안나올 확률 + 6이 딱 한번 나올 확률) =1{(56)12+16×(56)11}0.619 = 1−\{( {\frac {5}{6}) ^{12}} + \frac{1}{6} \times (\frac{5}{6}) ^{11} \} \approx 0.619

P(C)=1k=02P(C)=​​(18k)(16)k(56)18k0.597P(C) = 1- {\displaystyle \sum _{k=0} ^{2}}P(C)=​​{ {18\choose k}(\frac{1}{6})^k (\frac {5}{6})^{18-k}} \approx 0.597

∴ (a)가 가장 발생할 확률이 높다.

Conditional Probability

새로운 정보를 얻었을 때, 기존의 ‘믿음/불확실성(uncertainty)’을 어떻게 업데이트하는가?

정의

P(AB)=P(AB)P(B)P(AB)=P(B)​​P(AB)​​,(P(B)>0P(B)>0이다) P(A|B) = {\Large \frac{P(A \cap B)}{P(B)} } \\ P(A∣B)=​P(B)​​P(A∩B)​​ , (P(B) >0 P(B)>0이다)

직관적 접근 1) '조약돌 세계관'

직관적 접근 2) '빈도학파(Frequentist) 세계관'

같은 실험을 무한 번 반복할 수 있다면,

정리

  1. P(AB)=P(B)P(AB)=P(A)P(BA) P(A \cap B) = P(B)P(A|B) = P(A)P(B|A)

  2. P(A1,A2,...An)=P(A1)P(A2A1)P(A3A1,A2)...P(AnA1,...,An1) P(A_1, A_2, ... A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1,A_2) ... P(A_n| A_1,..., A_{n-1})

  3. P(AB)=P(BA)P(A)P(B)P(AB)=P(B)​​P(BA)P(A) P(A |B) = {\Large \frac {P(B|A)P(A)}{P(B)} } \\ P(A∣B)=​P(B)​​P(B∣A)P(A)​​ → 이를 베이즈의 정리(Bayes’ Theorem)라 한다.

Last updated

Was this helpful?