14 Thu

[AI 스쿨 1기] 6주차 DAY 4

출처 : https://github.com/sujiny-tech/k-digital-training-AI-dev/blob/main/Machine-Learning-basics/Linear%20Models%20for%20Classification.md

확률적 식별 모델 (Probabilistic discriminative model)

x가 주어졌을 때, 클래스의 확률을 x에 관한 함수로 가정하고, 파라미터를 바로 구하는 모델
로지스틱 회귀(Logistic regression) : 대표적인 방법✨
- 클래스 C1의 사후 확률 = 특성벡터 의 선형함수가 logistic sigmoid 를 통과 함수
  
  이때, 입력함수 x대신 비선형 기저함수 사용함.
  위 식의 logistic sigmoid 함수 :
- 클래스 C2의 사후 확률은 다음과 같음.
- 가 M차원 일 때, 구해야할 파라미터 w의 개수는 M
  셍성모델의 경우에는, M(M+5)/2+1개의 파라미터 구해야함
  이에 반면, 로지스틱 회귀는 훨씬더 작은 M의 linear한 개수의 파라미터만 구해도 됨.
- 최대우도해
  - 데이터 셋 :
  - 우도함수
  - 음의 로그우도
    
    모수 추정을 위해 사용하며, 이는 크로스 엔트로피 에러함수(cross entropy error function)❗
  - 크로스 엔트로피(cross entropy error function)
    정보이론에서
    이산확률변수의 경우,
    일반적으로 크로스 엔트로피가 최소화될 때, 두 확률분포의 차이가 최소화
    따라서, 에러함수 최소화 = 우도 최대화 = 목표 변수(분포)와 예측값 분포 차이 최소화❗
  - 에러함수 w의 gradient
    
    이때, 으로 나타낼 수 있음.
    따라서, 이므로
    전체적인 에러 함수 w의 gradient는 다음과 같음.
다중 클래스 로지스틱 회귀(Multiclass logistic regression)
- 또는 소프트맥스 회귀(Softmax regression) 라고 함.
  - 샘플 x가 주어지면 소프트맥스 회귀 모델이 각 클래스에 대한 점수 계산
  - 이에 소프트맥스 함수를 적용해서 각 클래스의 확률 추정, 확률이 가장 큰 클래스 선택(모든 확률의 합=1)
- 우도함수
  - 특성 벡터 를 위한 목표벡터 는 클래스에 해당하는 하나의 원소만 1(나머지 0)인 1-of-k 인코딩 방법으로 표현
    
    이며,
    : 를 원소로 갖는 N x K 크기의 행렬
- 음의 로그 우도
  위의 우도함수를 음의 로그를 취하면,
  - 에러함수 최소화 → 파라미터 구하기(에 대한 gradient)
    하나의 샘플에 대한 에러에 대해 아래와 같이 정의하면,
    
    에 대한 gradient
    
    풀이는 다음과 같음
    결과적으로, 다음과 같음❗

✨️ 공부하면서 참고한 사이트

[Statistics 110] 4강- 조건부 확률 (Conditional Probability)

Present Part [4 / 34]

포함배제의 원리 추가 설명

$P(A_1⋃⋯⋃A_K)={ (n-k)! \over n!}$

n개 중 k개의 카드에 대해서 어떤 수 m을 가진 카드가 m번째에 있을 확률은 위 식과 같다. 그런데 여기서 n개 중 k개의 카드에 대해서 적용해야 하므로

${n \choose k} = { n! \over (n-k)!k! }$

다음과 같은 식이 구해지며 이를 곱해 ${1 \over k!}$ 만 남게 된다.

$P( \bigcup_{j=1}^n A_j) = 1 - {1 \over 2!} + \cdots + (-1)^{n+1}{1 \over n!}$

$P(no \ \ match) = P( \cap _{j=1}^n A_j^c) = 1-1+{1 \over 2!} - {1 \over 3!} + \cdots + (-1)^n {1 \over n!}$ ≈ ${1 \over e}$ => 테일러 시리즈

Independence

정의

$P(A∩B) = P(A)P(B)$ 이 성립할 때, 사건 A와 B는 독립이다. A가 일어났다고 해서 B가 일어날 지에 대한 이야기는 하지 못한다. (배반과의 차이점 => 배반 : A가 일어났다면 B는 일어날 수가 없다.)

A, B, C의 독립

$P(A∩B∩C)= P(A)P(B)P(C)$
$P(A∩B)=P(A)P(B), P(B \cap C) = P(B)P(C),P(B∩C)=P(B)P(C), P(C \cap A) = P(C)P(A),P(C∩A)=P(C)P(A)$
전체 독립과 쌍으로 독립을 확인해야 세 사건이 독립임을 확신할 수 있다.

Newton-Pepys Problem(1693)

공정한 주사위를 갖고 있을 때, 다음 중 어떤 경우가 발생할 확률이 가장 높은가?

a) 6개의 주사위 중에서 적어도 한 개가 ‘6’이 나온 경우

b) 12개의 주사위 중에서 적어도 두 개가 ‘6’이 나온 경우

c) 18개의 주사위 중에서 적어도 세 개가 ‘6’이 나온 경우

→ 답은 (a)

$P(A)=1−({5 \over 6})^6 \approx 0.665$

$P(B) = 1 -$ (6이 한번도 안나올 확률 + 6이 딱 한번 나올 확률) $= 1−\{( {\frac {5}{6}) ^{12}} + \frac{1}{6} \times (\frac{5}{6}) ^{11} \} \approx 0.619$

$P(C) = 1- {\displaystyle \sum _{k=0} ^{2}}P(C)={ {18\choose k}(\frac{1}{6})^k (\frac {5}{6})^{18-k}} \approx 0.597$

∴ (a)가 가장 발생할 확률이 높다.

Conditional Probability

새로운 정보를 얻었을 때, 기존의 ‘믿음/불확실성(uncertainty)’을 어떻게 업데이트하는가?

정의

$P(A|B) = {\Large \frac{P(A \cap B)}{P(B)} } \\ P(A∣B)=P(B)P(A∩B) , (P(B) >0 P(B)>0이다)$

직관적 접근 1) '조약돌 세계관'

직관적 접근 2) '빈도학파(Frequentist) 세계관'

같은 실험을 무한 번 반복할 수 있다면,

정리

$P(A \cap B) = P(B)P(A|B) = P(A)P(B|A)$
$P(A_1, A_2, ... A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1,A_2) ... P(A_n| A_1,..., A_{n-1})$
$P(A |B) = {\Large \frac {P(B|A)P(A)}{P(B)} } \\ P(A∣B)=P(B)P(B∣A)P(A)$ → 이를 베이즈의 정리(Bayes’ Theorem)라 한다.

Previous15 Fri Next13 Wed

Last updated 4 years ago

Was this helpful?