13 Wed
TIL
Last updated
Was this helpful?
TIL
Last updated
Was this helpful?
์ถ์ฒ :
๋ถ๋ฅ ๋ชฉํ : ์ ๋ ฅ๋ฒกํฐ x๋ฅผ K๊ฐ์ ๊ฐ๋ฅํ ํด๋์ค ์ค ํ๋์ ํด๋์ค๋ก ํ ๋น
๋ถ๋ฅ๋ฅผ ์ํ ๊ฒฐ์ ์ด๋ก
ํ๋ฅ ์ ๋ชจ๋ธ(probabilistic model)
์์ฑ๋ชจ๋ธ(generative model)
ํด๋์ค์ ์ฌํํ๋ฅ (using ๋ฒ ์ด์ฆ ์ ๋ฆฌ) ๋๋ ์ง์ ๋ชจ๋ธ๋ง
์๋ณ๋ชจ๋ธ(discriminative model)
์ง์ ๋ชจ๋ธ๋ง
ํ๋ณํจ์(discriminant model)
ํ๋ฅ ๊ณ์ฐ ์์ด ์ ๋ ฅ x๋ฅผ ํด๋์ค๋ก ํ ๋นํ๋ ํ๋ณํจ์ ๊ตฌํ๊ธฐ(์ฐพ๊ธฐ)
์ ํํจ์์ ๊ดํ ํ๋ณํจ์์ ๋ํด ์๊ฐํ์.
๋๊ฐ์ ํด๋์ค์ ๋ํ ์ ํํ๋ณํจ์
๊ฒฐ์ ๊ฒฝ๊ณ(decision boundary)
y(x)=0์ ๋ง์กฑํ๋ x์ ์งํฉ (x๊ฐ D์ฐจ์์ ์ ๋ ฅ๋ฒกํฐ์ผ ๋, D-1์ฐจ์์ hyperplane)
์์ ์์ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด๊น์ง์ ๊ฑฐ๋ฆฌ
๋ฒกํฐ xโฅ : ์์ ์์ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด์ ๋ํ ์ฌ์(projection)์ผ ๋ (์๋ ๊ทธ๋ฆผ ์ฐธ๊ณ )
xโฅ : ์์์ ํ์ x์ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด์ ๋ํ ์ฌ์์ผ ๋
y(x)๋ x์ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด ์ฌ์ด์ ๋ถํธํ๋ ๊ฑฐ๋ฆฌ์ ๋น๋ก
์ ๋ฆฌํ๋ฉด,
๋ค์์ ํด๋์ค์ ๋ํ ํ๋ณํจ์
์ฌ์ค ๋ถ๋ฅ๋ฅผ ์ํด ์ต์์ ๊ณฑ๋ฒ ์ฐ๋๊ฑด ๋ณ๋ก ์ข์ง xโ
ํด๋์ค๋ฅผ ํ๋ณํ๋ ํ๋ณ์์ ๋ค์๊ณผ ๊ฐ์
์ ๊ณฑํฉ ์๋ฌ ํจ์(sum-of-squared error function)
์ ๋ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์.
๋ฐ๋ผ์ ํ๋ณํจ์๋ ๋ค์๊ณผ ๊ฐ์.
๋ถ๋ฅ๋ฅผ ์ํ ์ต์์ ๊ณฑ๋ฒ์ ๋ฌธ์ ์ โจ
outlier์ ๋ฏผ๊ฐ
๋ชฉํ๊ฐ์ ํ๋ฅ ๋ถํฌ์ ๋ํ ์๋ชป๋ ๊ฐ์ ์ ๊ธฐ์ดโ
๊ธฐ์ ํจ์๋ฅผ ๋ฃ์ด ์ผ๋ฐํ๋ ์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ์.
์๋ฌ ํจ์
Stochastic gradient descent์ ์ ์ฉํ๋ฉด,
์ ์ ๋ฐ์ดํธ๊ฐ ์คํ๋ ๋ ์๋ชป ๋ถ๋ฅ๋ ์ํ์ ๋ฏธ์น๋ ์ํฅ
โญ ์ต์์ ๊ณฑ๋ฒ๊ณผ ํผ์ ํธ๋ก ๋ชจ๋ output ์ถ๋ ฅํ์ง๋ง, ํ๋ฅ ์ ๊ณ์ฐํ์ง ์์โ
์ด์ ํ๋ณํจ์์์๋ ์๋ฌํจ์๋ฅผ ์ต์ํํ๋ ์ต์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๊ฒ์ด ๋ชฉ์ ์ด์ง๋ง, ํ๋ฅ ์ ๋ชจ๋ธ์ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ๋ฉด์ ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ๊ฒฐ๊ณผ์ ์ผ๋ก ํ๊ฒ๋จโ
2-class๋ฅผ ๊ฐ์ ํ๊ณ , x๊ฐ ํด๋์ค 1(C1)์ ์ํ ํ๋ฅ
logistic sigmoid function
์ฑ์ง
์ผ๋ฐ ์ ํ ๋ชจ๋ธ(generalized linear model) - ํด๋์ค๊ฐ k>2์ธ ๊ฒฝ์ฐ (์ผ๋ฐํ)โ
โญ 2-class : logistic sigmoid function๋ฅผ ์ด์ฉ, k-class : softmax function๋ฅผ ์ด์ฉโ
์ฐ์์ ์ ๋ ฅ (continuous inputs)
๊ฐ์ ํ์ ์ด๋ค ํด๋์ค๊ฐ ์ฃผ์ด์ก๋ค๋ฉด, ํด๋น ๋ฐ์ดํฐ๋ฅผ outputํ๋ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ์.
2-class์ ๋ํด์,
์ด๋, w๋ฒกํฐ์ w0๋ ๋ค์๊ณผ ๊ฐ์.
a์ ๋ํ ์ ๊ฐ
k-class์ ๋ํด์๋ ๋ค์๊ณผ ๊ฐ์ด ํ์ฅ ๊ฐ๋ฅ.
์ต๋์ฐ๋ํด (Maximum likelihood solution)
2-class์ ๊ฒฝ์ฐ
๋ฐ์ดํฐ์ ํ๋ผ๋ฏธํฐ๋ค
์ฐ๋ํจ์
๊ฐ ํด๋์ค์ ๋ํด ๋ค์๊ณผ ๊ฐ์ด ํํํ ์ ์์
p({\bf x}_n, C_2) = p(C_2)p({\bf x}_n|C_2) = (1-\pi) N({\bf x}_n;\mu_2, \Sigma)
๋ฐ๋ผ์,
ฯ ๊ตฌํ๊ธฐฮผ ๊ตฌํ๊ธฐโ ๊ตฌํ๊ธฐ
ํด๋์ค๊ฐ ์ฃผ์ด์ก์ ๋ ํน์ฑ๋ค์ด ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ(conditional independence)์ด๋ผ๋ ๊ฐ์ ์ ํ ๊ฒฝ์ฐ ๋ฌธ์ ๋ ๋จ์ํ๋จ! โ naive Bayes ๊ฐ์
๊ฐ์
2์ 29์ผ์ ์ ์ธํ๋ค
365์ผ์ด ๋ชจ๋ ๋์ผํ ํ๋ฅ ์ ๊ฐ์ง๋ค
์ค์ ๋ก๋ ๊ทธ๋ ์ง ์๋ค. ์๋ฅผ ๋ค์ด 9์์ ์ถ์์ด ๋ง๋ค.
๋ ๋ฆฝ : ํ ์ฌ๋์ ์์ผ์ด ๋ค๋ฅธ ์ฌ๋์ ์์ผ์ ์ํฅ์ ๋ฏธ์น์ง ์๋๋ค.
365๊ฐ์ ์์์ ๊ณต์ ์ต์ํ ํ๋์ฉ ์ง์ด๋ฃ๋ ๊ฒฝ์ฐ์ ๋์ผ
์ฌ๋์ด 366๋ช ์ผ ๊ฒฝ์ฐ๋ ํ๋ฅ ์ด 1์ด๋ค.
์ด๋ฅผ ๋น๋๊ธฐ์ง ์๋ฆฌ๋ผ๊ณ ํ๋ค
๋๋ถ๋ถ์ ์ฌ๋๋ค์ ์ง๊ด์ ์ผ๋ก 150~180๋ช ์ ์ด์ผ๊ธฐํ๋ฉฐ ๋ณดํต 100์ ๋๋๋ค.
์ค์ ๋ก๋ 23๋ช ์ด ์์ ๋ 50.7%์ ํ๋ฅ ์ ๊ฐ์ง๋ค
์ด๋ฅผ 1์์ ๋นผ๋ฉด ์ ์ด๋ ๋ ๋ช ์ด ์์ผ์ด ๊ฐ์ ํ๋ฅ ์ ๊ตฌํ๋ ๊ฒ๊ณผ ๊ฐ๋ค
P(match)
50.7% if k = 23
97.0% if k = 50
99.999% if k = 100
23์ ์์ ์์ง๋ง, 23๋ช ์ด ๋ง๋ค ์ ์๋ ์์ ์๋ 253๊ฐ์ด๋ฉฐ ์ถฉ๋ถํ ์ ์ด๋ ํ์์ด ์์ผ์ด ๊ฐ์์ง ๋น๊ตํ ์๋ก๋ ์์ ์๋ ์๋๋ค
์์ผ์ด ๊ฐ๊ฑฐ๋ ํ๋ฃจ ์ฐจ์ด ๋ ํ๋ฅ
about 50% if k = 14
๊ธฐ๋ณธ ์ ๋ฆฌ
์์ฑ
Proof
Proof
Proof
ํฌํจ๋ฐฐ์ ์ ์๋ฆฌ, inclusion-exclusion
๋๋ฐ์์ ์ฒ์ ๋์จ ๋ฌธ์
1๋ถํฐ n๊น์ง ์ ํ์๊ณ ๊ฐ ์๋ง๋ค ํ ์ฅ๋ง ์กด์ฌํ๋ ์นด๋ ๋ญ์น๊ฐ ์กด์ฌ
์นด๋๋ฅผ ์ ํ ํ, ์นด๋ ๋ญ์น์ ์๋ ์นด๋์ ์์์ ์นด๋์ ๊ฐ์ด ์ผ์นํ๋ ๊ฒฝ์ฐ ์น๋ฆฌ
ํฌํจ๋ฐฐ์ ์ ์๋ฆฌ๋ฅผ ์ด์ฉํ์ฌ ํธ๋ ๊ฒ์ด ๊ฐ์ฅ ์ฝ๋ค
ํ ์ผ๋ฌ ๊ธ์์ ๋น์ทํ ๋ชจ์
: wight vector
: bias
์ด๋ฉด ํด๋์ค 1๋ก ํ๋ณ, <0์ด๋ฉด ํด๋์ค 2๋ก ํ๋ณ
๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด ์
โ ์ฆ, ๋ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด์ ์์ง
์ด๋ฉด, ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด์ ์์ ์ผ๋ก๋ถํฐ w๊ฐ ํฅํ๋ ๋ฐฉํฅ์ผ๋ก ๋ฉ์ด์ ธ์์.
์ด๋ฉด, ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด์ ์์ ์ผ๋ก๋ถํฐ w๊ฐ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ๋ฉ์ด์ ธ์์.
์ฆ, ๋ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด ์์น ๊ฒฐ์ โ
์ด๋ฉด, x๋ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด ๊ธฐ์ค์ผ๋ก w๊ฐ ํฅํ๋ ๋ฐฉํฅ์ ์์
์ด๋ฉด, x๋ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด ๊ธฐ์ค์ผ๋ก -w๊ฐ ํฅํ๋ ๋ฐฉํฅ์ ์์.
์ ์ ๋๊ฐ์ด ํด์๋ก ๋ ๋ฉ๋ฆฌ ๋จ์ด์ ธ์์.
(์์ ๋จ์ํ) ๊ฐ์ง์ ๋ ฅ dummy input ์ด์ฉ
ํด๋์ค ์ ๋ํด ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ์.
์ผ ๋, ๋ฅผ ๋ง์กฑํ๋ฉด, x๋ฅผ ํด๋์ค ๋ก ํ๋ณ
ํ๋ ฌ ์ ๋ํด ๋ํ๋ด๋ฉด,
์ k๋ฒ์งธ ์ด :
ํ์ต ๋ฐ์ดํฐ , , n๋ฒ์งธํญ์ด ์ธ ํ๋ ฌ T, n๋ฒ์งธ ํ์ด ์ธ ํ๋ ฌ ์ด ์ฃผ์ด์ก์ ๋, ์ ๊ณฑํฉ ์๋ฌํจ์๋ ๋ค์๊ณผ ๊ฐ์.
์ ๋ํด ๋ฏธ๋ถํ๊ณ ์ ์ ๊ฐํ๋ฉด,
( : pseudo-inverse ํ๋ ฌ)
์ฌ๊ธฐ์ ์ด๋ฉฐ, f๋ ํ์ฑํจ์(activation function)๋ก ๊ณ๋จํ ํจ์์
: ์๋ชป ๋ถ๋ฅ๋ ๋ฐ์ดํฐ๋ค์ ์งํฉ
๋ชจ๋ธ๋ง ํ ๋ค์ โ ํด๋์ค์ ์ฌํํ๋ฅ ์ ๊ตฌํจโ (using ๋ฒ ์ด์ฆ ์ ๋ฆฌ)
(a์ ๊ดํ logistic sigmoid function)
๋์นญ :
์ญ(inverse) :
(a์ ๊ดํ softmax function)
๊ฐ ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ณ , ๋ชจ๋ ํด๋์ค์ ๋ํด ๊ณต๋ถ์ฐ์ด ๋์ผํ๋ค๊ณ ๊ฐ์ ํ์.
์ค์ ๋ฐ์ดํฐ ์ ๋ํด ์ด๋ฉด ํด๋์ค 1๋ก ๋ถ๋ฅํ๊ณ , ์ ํด๋์ค 2๋ก ๋ถ๋ฅ.
๋ผ ํ ๋, ๊ตฌํ๊ณ ์ํ๋ ํ๋ผ๋ฏธํฐ๋ โ
๊ฐ ํน์ฑ ์ด 0 ๋๋ 1, ํ๋์ ๊ฐ๋ง ๊ฐ์ง ์ ์๋ ๊ฒฝ์ฐ
์ด๋, ์ด๋ฉฐ, ์ ์์ k-class์ ์ ๋์ ํ๋ฉด ๋ค์๊ณผ ๊ฐ์.
ํจ์๊ฐ ํจ์์ ๋ํด ์ ํ์ธ ๊ฒ์ ํ์ธํ ์ ์์.
P(no match) = : 365๊ฐ์ ๋ ์ง ์ค 1๋ช ์ด ํ ๋ ์ง๋ฅผ ์ฐจ์งํ๋ฉด ๋ค๋ฅธ 1๋ช ์ ๋จ์ 364๊ฐ์ ๋ ์ง ์ค ํ ๋ ์ง๋ฅผ ์ฐจ์งํ๋ ๋ฐฉ๋ฒ
P() = 0, P(S) = 1 and it also means
If , then
, disjoint
=> True
since, are disjoint, union is B
, j์นด๋๊ฐ j-th์ ์์ ํ๋ฅ , ์ด ๋ j์ ๋ํ ์์ด ์๋๋ค
, n๊ฐ์ ์นด๋ ์ค 1๊ณผ 2๊ฐ ๊ฐ๊ฐ ์ฒซ๋ฒ์งธ์ ๋๋ฒ์งธ์ ์์ด์ผ ํจ