13 Wed
TIL
Last updated
Was this helpful?
TIL
Last updated
Was this helpful?
์ถ์ฒ :
๋ถ๋ฅ ๋ชฉํ : ์ ๋ ฅ๋ฒกํฐ x๋ฅผ K๊ฐ์ ๊ฐ๋ฅํ ํด๋์ค ์ค ํ๋์ ํด๋์ค๋ก ํ ๋น
๋ถ๋ฅ๋ฅผ ์ํ ๊ฒฐ์ ์ด๋ก
ํ๋ฅ ์ ๋ชจ๋ธ(probabilistic model)
์์ฑ๋ชจ๋ธ(generative model)
ํด๋์ค์ ์ฌํํ๋ฅ (using ๋ฒ ์ด์ฆ ์ ๋ฆฌ) ๋๋ ์ง์ ๋ชจ๋ธ๋ง
์๋ณ๋ชจ๋ธ(discriminative model)
์ง์ ๋ชจ๋ธ๋ง
ํ๋ณํจ์(discriminant model)
ํ๋ฅ ๊ณ์ฐ ์์ด ์ ๋ ฅ x๋ฅผ ํด๋์ค๋ก ํ ๋นํ๋ ํ๋ณํจ์ ๊ตฌํ๊ธฐ(์ฐพ๊ธฐ)
์ ํํจ์์ ๊ดํ ํ๋ณํจ์์ ๋ํด ์๊ฐํ์.
๋๊ฐ์ ํด๋์ค์ ๋ํ ์ ํํ๋ณํจ์
๊ฒฐ์ ๊ฒฝ๊ณ(decision boundary)
y(x)=0์ ๋ง์กฑํ๋ x์ ์งํฉ (x๊ฐ D์ฐจ์์ ์ ๋ ฅ๋ฒกํฐ์ผ ๋, D-1์ฐจ์์ hyperplane)
์์ ์์ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด๊น์ง์ ๊ฑฐ๋ฆฌ
๋ฒกํฐ xโฅ : ์์ ์์ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด์ ๋ํ ์ฌ์(projection)์ผ ๋ (์๋ ๊ทธ๋ฆผ ์ฐธ๊ณ )
xโฅ : ์์์ ํ์ x์ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด์ ๋ํ ์ฌ์์ผ ๋
y(x)๋ x์ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด ์ฌ์ด์ ๋ถํธํ๋ ๊ฑฐ๋ฆฌ์ ๋น๋ก
์ ๋ฆฌํ๋ฉด,
๋ค์์ ํด๋์ค์ ๋ํ ํ๋ณํจ์
์ฌ์ค ๋ถ๋ฅ๋ฅผ ์ํด ์ต์์ ๊ณฑ๋ฒ ์ฐ๋๊ฑด ๋ณ๋ก ์ข์ง xโ
ํด๋์ค๋ฅผ ํ๋ณํ๋ ํ๋ณ์์ ๋ค์๊ณผ ๊ฐ์
์ ๊ณฑํฉ ์๋ฌ ํจ์(sum-of-squared error function)
์ ๋ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์.
๋ฐ๋ผ์ ํ๋ณํจ์๋ ๋ค์๊ณผ ๊ฐ์.
๋ถ๋ฅ๋ฅผ ์ํ ์ต์์ ๊ณฑ๋ฒ์ ๋ฌธ์ ์ โจ
outlier์ ๋ฏผ๊ฐ
๋ชฉํ๊ฐ์ ํ๋ฅ ๋ถํฌ์ ๋ํ ์๋ชป๋ ๊ฐ์ ์ ๊ธฐ์ดโ
๊ธฐ์ ํจ์๋ฅผ ๋ฃ์ด ์ผ๋ฐํ๋ ์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ์.
์๋ฌ ํจ์
Stochastic gradient descent์ ์ ์ฉํ๋ฉด,
์ ์ ๋ฐ์ดํธ๊ฐ ์คํ๋ ๋ ์๋ชป ๋ถ๋ฅ๋ ์ํ์ ๋ฏธ์น๋ ์ํฅ
โญ ์ต์์ ๊ณฑ๋ฒ๊ณผ ํผ์ ํธ๋ก ๋ชจ๋ output ์ถ๋ ฅํ์ง๋ง, ํ๋ฅ ์ ๊ณ์ฐํ์ง ์์โ
์ด์ ํ๋ณํจ์์์๋ ์๋ฌํจ์๋ฅผ ์ต์ํํ๋ ์ต์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๊ฒ์ด ๋ชฉ์ ์ด์ง๋ง, ํ๋ฅ ์ ๋ชจ๋ธ์ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ๋ฉด์ ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ๊ฒฐ๊ณผ์ ์ผ๋ก ํ๊ฒ๋จโ
2-class๋ฅผ ๊ฐ์ ํ๊ณ , x๊ฐ ํด๋์ค 1(C1)์ ์ํ ํ๋ฅ
logistic sigmoid function
์ฑ์ง
์ผ๋ฐ ์ ํ ๋ชจ๋ธ(generalized linear model) - ํด๋์ค๊ฐ k>2์ธ ๊ฒฝ์ฐ (์ผ๋ฐํ)โ
โญ 2-class : logistic sigmoid function๋ฅผ ์ด์ฉ, k-class : softmax function๋ฅผ ์ด์ฉโ
์ฐ์์ ์ ๋ ฅ (continuous inputs)
๊ฐ์ ํ์ ์ด๋ค ํด๋์ค๊ฐ ์ฃผ์ด์ก๋ค๋ฉด, ํด๋น ๋ฐ์ดํฐ๋ฅผ outputํ๋ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ์.
2-class์ ๋ํด์,
์ด๋, w๋ฒกํฐ์ w0๋ ๋ค์๊ณผ ๊ฐ์.
a์ ๋ํ ์ ๊ฐ
k-class์ ๋ํด์๋ ๋ค์๊ณผ ๊ฐ์ด ํ์ฅ ๊ฐ๋ฅ.
์ต๋์ฐ๋ํด (Maximum likelihood solution)
2-class์ ๊ฒฝ์ฐ
๋ฐ์ดํฐ์ ํ๋ผ๋ฏธํฐ๋ค
์ฐ๋ํจ์
๊ฐ ํด๋์ค์ ๋ํด ๋ค์๊ณผ ๊ฐ์ด ํํํ ์ ์์
p({\bf x}_n, C_2) = p(C_2)p({\bf x}_n|C_2) = (1-\pi) N({\bf x}_n;\mu_2, \Sigma)
๋ฐ๋ผ์,
ฯ ๊ตฌํ๊ธฐฮผ ๊ตฌํ๊ธฐโ ๊ตฌํ๊ธฐ
ํด๋์ค๊ฐ ์ฃผ์ด์ก์ ๋ ํน์ฑ๋ค์ด ์กฐ๊ฑด๋ถ ๋ ๋ฆฝ(conditional independence)์ด๋ผ๋ ๊ฐ์ ์ ํ ๊ฒฝ์ฐ ๋ฌธ์ ๋ ๋จ์ํ๋จ! โ naive Bayes ๊ฐ์
๊ฐ์
2์ 29์ผ์ ์ ์ธํ๋ค
365์ผ์ด ๋ชจ๋ ๋์ผํ ํ๋ฅ ์ ๊ฐ์ง๋ค
์ค์ ๋ก๋ ๊ทธ๋ ์ง ์๋ค. ์๋ฅผ ๋ค์ด 9์์ ์ถ์์ด ๋ง๋ค.
๋ ๋ฆฝ : ํ ์ฌ๋์ ์์ผ์ด ๋ค๋ฅธ ์ฌ๋์ ์์ผ์ ์ํฅ์ ๋ฏธ์น์ง ์๋๋ค.
365๊ฐ์ ์์์ ๊ณต์ ์ต์ํ ํ๋์ฉ ์ง์ด๋ฃ๋ ๊ฒฝ์ฐ์ ๋์ผ
์ฌ๋์ด 366๋ช ์ผ ๊ฒฝ์ฐ๋ ํ๋ฅ ์ด 1์ด๋ค.
์ด๋ฅผ ๋น๋๊ธฐ์ง ์๋ฆฌ๋ผ๊ณ ํ๋ค
๋๋ถ๋ถ์ ์ฌ๋๋ค์ ์ง๊ด์ ์ผ๋ก 150~180๋ช ์ ์ด์ผ๊ธฐํ๋ฉฐ ๋ณดํต 100์ ๋๋๋ค.
์ค์ ๋ก๋ 23๋ช ์ด ์์ ๋ 50.7%์ ํ๋ฅ ์ ๊ฐ์ง๋ค
์ด๋ฅผ 1์์ ๋นผ๋ฉด ์ ์ด๋ ๋ ๋ช ์ด ์์ผ์ด ๊ฐ์ ํ๋ฅ ์ ๊ตฌํ๋ ๊ฒ๊ณผ ๊ฐ๋ค
P(no match) = : 365๊ฐ์ ๋ ์ง ์ค 1๋ช ์ด ํ ๋ ์ง๋ฅผ ์ฐจ์งํ๋ฉด ๋ค๋ฅธ 1๋ช ์ ๋จ์ 364๊ฐ์ ๋ ์ง ์ค ํ ๋ ์ง๋ฅผ ์ฐจ์งํ๋ ๋ฐฉ๋ฒ
P(match)
50.7% if k = 23
97.0% if k = 50
99.999% if k = 100
23์ ์์ ์์ง๋ง, 23๋ช ์ด ๋ง๋ค ์ ์๋ ์์ ์๋ 253๊ฐ์ด๋ฉฐ ์ถฉ๋ถํ ์ ์ด๋ ํ์์ด ์์ผ์ด ๊ฐ์์ง ๋น๊ตํ ์๋ก๋ ์์ ์๋ ์๋๋ค
์์ผ์ด ๊ฐ๊ฑฐ๋ ํ๋ฃจ ์ฐจ์ด ๋ ํ๋ฅ
about 50% if k = 14
๊ธฐ๋ณธ ์ ๋ฆฌ
P() = 0, P(S) = 1 and it also means
์์ฑ
Proof
If , then
Proof
, disjoint
Proof
=> True
since, are disjoint, union is B
ํฌํจ๋ฐฐ์ ์ ์๋ฆฌ, inclusion-exclusion
๋๋ฐ์์ ์ฒ์ ๋์จ ๋ฌธ์
1๋ถํฐ n๊น์ง ์ ํ์๊ณ ๊ฐ ์๋ง๋ค ํ ์ฅ๋ง ์กด์ฌํ๋ ์นด๋ ๋ญ์น๊ฐ ์กด์ฌ
์นด๋๋ฅผ ์ ํ ํ, ์นด๋ ๋ญ์น์ ์๋ ์นด๋์ ์์์ ์นด๋์ ๊ฐ์ด ์ผ์นํ๋ ๊ฒฝ์ฐ ์น๋ฆฌ
ํฌํจ๋ฐฐ์ ์ ์๋ฆฌ๋ฅผ ์ด์ฉํ์ฌ ํธ๋ ๊ฒ์ด ๊ฐ์ฅ ์ฝ๋ค
, j์นด๋๊ฐ j-th์ ์์ ํ๋ฅ , ์ด ๋ j์ ๋ํ ์์ด ์๋๋ค
, n๊ฐ์ ์นด๋ ์ค 1๊ณผ 2๊ฐ ๊ฐ๊ฐ ์ฒซ๋ฒ์งธ์ ๋๋ฒ์งธ์ ์์ด์ผ ํจ
ํ ์ผ๋ฌ ๊ธ์์ ๋น์ทํ ๋ชจ์
: wight vector
: bias
์ด๋ฉด ํด๋์ค 1๋ก ํ๋ณ, <0์ด๋ฉด ํด๋์ค 2๋ก ํ๋ณ
๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด ์
โ ์ฆ, ๋ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด์ ์์ง
์ด๋ฉด, ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด์ ์์ ์ผ๋ก๋ถํฐ w๊ฐ ํฅํ๋ ๋ฐฉํฅ์ผ๋ก ๋ฉ์ด์ ธ์์.
์ด๋ฉด, ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด์ ์์ ์ผ๋ก๋ถํฐ w๊ฐ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ๋ฉ์ด์ ธ์์.
์ฆ, ๋ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด ์์น ๊ฒฐ์ โ
์ด๋ฉด, x๋ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด ๊ธฐ์ค์ผ๋ก w๊ฐ ํฅํ๋ ๋ฐฉํฅ์ ์์
์ด๋ฉด, x๋ ๊ฒฐ์ ๊ฒฝ๊ณ๋ฉด ๊ธฐ์ค์ผ๋ก -w๊ฐ ํฅํ๋ ๋ฐฉํฅ์ ์์.
์ ์ ๋๊ฐ์ด ํด์๋ก ๋ ๋ฉ๋ฆฌ ๋จ์ด์ ธ์์.
(์์ ๋จ์ํ) ๊ฐ์ง์ ๋ ฅ dummy input ์ด์ฉ
ํด๋์ค ์ ๋ํด ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ์.
์ผ ๋, ๋ฅผ ๋ง์กฑํ๋ฉด, x๋ฅผ ํด๋์ค ๋ก ํ๋ณ
ํ๋ ฌ ์ ๋ํด ๋ํ๋ด๋ฉด,
์ k๋ฒ์งธ ์ด :
ํ์ต ๋ฐ์ดํฐ , , n๋ฒ์งธํญ์ด ์ธ ํ๋ ฌ T, n๋ฒ์งธ ํ์ด ์ธ ํ๋ ฌ ์ด ์ฃผ์ด์ก์ ๋, ์ ๊ณฑํฉ ์๋ฌํจ์๋ ๋ค์๊ณผ ๊ฐ์.
์ ๋ํด ๋ฏธ๋ถํ๊ณ ์ ์ ๊ฐํ๋ฉด,
( : pseudo-inverse ํ๋ ฌ)
์ฌ๊ธฐ์ ์ด๋ฉฐ, f๋ ํ์ฑํจ์(activation function)๋ก ๊ณ๋จํ ํจ์์
: ์๋ชป ๋ถ๋ฅ๋ ๋ฐ์ดํฐ๋ค์ ์งํฉ
๋ชจ๋ธ๋ง ํ ๋ค์ โ ํด๋์ค์ ์ฌํํ๋ฅ ์ ๊ตฌํจโ (using ๋ฒ ์ด์ฆ ์ ๋ฆฌ)
(a์ ๊ดํ logistic sigmoid function)
๋์นญ :
์ญ(inverse) :
(a์ ๊ดํ softmax function)
๊ฐ ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ณ , ๋ชจ๋ ํด๋์ค์ ๋ํด ๊ณต๋ถ์ฐ์ด ๋์ผํ๋ค๊ณ ๊ฐ์ ํ์.
์ค์ ๋ฐ์ดํฐ ์ ๋ํด ์ด๋ฉด ํด๋์ค 1๋ก ๋ถ๋ฅํ๊ณ , ์ ํด๋์ค 2๋ก ๋ถ๋ฅ.
๋ผ ํ ๋, ๊ตฌํ๊ณ ์ํ๋ ํ๋ผ๋ฏธํฐ๋ โ
๊ฐ ํน์ฑ ์ด 0 ๋๋ 1, ํ๋์ ๊ฐ๋ง ๊ฐ์ง ์ ์๋ ๊ฒฝ์ฐ
์ด๋, ์ด๋ฉฐ, ์ ์์ k-class์ ์ ๋์ ํ๋ฉด ๋ค์๊ณผ ๊ฐ์.
ํจ์๊ฐ ํจ์์ ๋ํด ์ ํ์ธ ๊ฒ์ ํ์ธํ ์ ์์.