13 Wed

TIL

[AI 스쿨 1기] 6주차 DAY 3

출처 :

⭐ 최소제곱법과 퍼셉트론 모두 output 출력하지만, 확률을 계산하진 않음❗

이전 판별함수에서는 에러함수를 최소화하는 최적의 파라미터를 찾는 것이 목적이지만, 확률적 모델은 데이터 분포를 모델링하면서 분류 문제를 결과적으로 풀게됨❗
2-class를 가정하고, x가 클래스 1(C1)에 속할 확률
- logistic sigmoid function
  - 성질
일반 선형 모델(generalized linear model) - 클래스가 k>2인 경우 (일반화)❗

⭐ 2-class : logistic sigmoid function를 이용, k-class : softmax function를 이용❗

- 클래스가 주어졌을 때 특성들이 조건부 독립(conditional independence)이라는 가정을 할 경우 문제는 단순화됨! → naive Bayes 가정

가정
- 2월 29일은 제외한다
- 365일이 모두 동일한 확률을 가진다
  - 실제로는 그렇지 않다. 예를 들어 9월에 출생이 많다.
  - 독립 : 한 사람의 생일이 다른 사람의 생일에 영향을 미치지 않는다.

이를 1에서 빼면 적어도 두 명이 생일이 같을 확률을 구하는 것과 같다
P(no match) = $\frac {365 \cdot 364 \cdot \ \ \cdots \ \ \cdot (365 - k + 1)} {365^k}$ : 365개의 날짜 중 1명이 한 날짜를 차지하면 다른 1명은 남은 364개의 날짜 중 한 날짜를 차지하는 방법
P(match)
- 50.7% if k = 23
- 97.0% if k = 50
- 99.999% if k = 100

${k \choose 2} = {k(k-1) \over 2}$
${23 \choose 2} = {23 \cdot 22 \over 2} = 253$
- 23은 작은 수지만, 23명이 만들 수 있는 쌍의 수는 253개이며 충분히 적어도 한쌍이 생일이 같은지 비교할 수로는 작은 수는 아니다
생일이 같거나 하루 차이 날 확률
- about 50% if k = 14

기본 정리
- P( $\varnothing$ ) = 0, P(S) = 1 and it also means $0 \le P(A) \le 1$
- $P (\cup^\infty_{n=1}) = \sum^\infty_{n=1}P(A_n) \ \ \ \ if \ \ A_n \ \ is \ \ disjoint\ \ with \ \ A_m(m \not= n)$
속성
- $P(A^c) = 1 - P(A)$
  - Proof
    $1= P(S) = P(A \bigcup A^c) = P(A) + P(A^c) \ \ since A \bigcap A^c = \varnothing$
- If $A \subseteq B$ , then $P(A) \leq P(B)$
  - Proof
    $B = A \bigcup (B \bigcap A^c)$ , disjoint
    $P(B) = P(A) \bigcup P(B \bigcap A^c)$
- $P(A \bigcup B) = P(A) + P(B) - P(A \bigcap B)$
  - Proof
    $P(A \bigcup B) = P(A \bigcup (B \bigcap A^c)) = P(A) + P(B \bigcap A^c) ?= P(A) + P(B) - P(A \bigcap B)$
    $P(B) = P(A \bigcap B) + P(A^c \bigcap B)$ => True
    since, $P(A \bigcap B), P(A^c \bigcap B)$ are disjoint, union is B
  - 포함배제의 원리, inclusion-exclusion
- $P(A_1 \bigcup A_2 \bigcup \cdots \bigcup A_n) = \sum_{i=1} ^n P(A_i) - \sum_{i \lt j} P(A_i \bigcap A_j) + \sum_{i \lt j \lt k} P(A_i \bigcap A_j \bigcap A_k) - \cdots + (-1)^{n+1}P(A_i \bigcap \cdots \bigcap A_n)$

도박에서 처음 나온 문제
1부터 n까지 적혀있고 각 수마다 한 장만 존재하는 카드 뭉치가 존재
카드를 셔플 후, 카드 뭉치에 있는 카드의 순서와 카드의 값이 일치하는 경우 승리
포함배제의 원리를 이용하여 푸는 것이 가장 쉽다
$P(A_j) = {1 \over n}$ , j카드가 j-th에 있을 확률, 이 때 j에 대한 식이 아니다
$P(A_1 \bigcap A_2) = { (n-2)! \over n!} = {1 \over n(n-1)}$ , n개의 카드 중 1과 2가 각각 첫번째와 두번째에 있어야 함
$P(A_1 \bigcap \cdots \bigcap A_K) = { (n-k)! \over n!}$
$P(A_1 \bigcup \cdots \bigcup A_K) = n \cdot {1 \over n} - {n(n-1) \over 2! }{1 \over n(n-1)} + { n(n-1)(n-2) \over 3! }{1 \over (n(n-1)(n-2)} - \cdots \\ = 1 - {1 \over 2!} + \cdots + (-1)^n {1 \over n!} = 1 - {1 \over e}$
테일러 급수와 비슷한 모양

Last updated 4 years ago

Was this helpful?