12 Tue
TIL
Last updated
Was this helpful?
TIL
Last updated
Was this helpful?
์ถ์ฒ :
๊ฐ์ฅ ๋จ์ํ ๋ชจ๋ธ
x์ ๊ดํ ๋น์ ํ ํจ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
๊ธฐ์ ํจ์(basis function) :
๋ช๊ฐ์ง ๊ธฐ์ ํจ์
๋คํญ์(polynomial) ๊ธฐ์ ํจ์
๊ฐ์ฐ์์ ๊ธฐ์ ํจ์
์๊ทธ๋ชจ์ด๋(sigmoid) ๊ธฐ์ ํจ์
์ผ์ชฝ๋ถํฐ ๋คํญ์ ๊ธฐ์ ํจ์, ๊ฐ์ฐ์์ ๊ธฐ์ ํจ์, ์๊ทธ๋ชจ์ด๋ ๊ธฐ์ ํจ์
๊ฐ์ฐ์์ ๋ ธ์ด์ฆ๊ฐ ํฌํจ๋ ํ๊ฒ t
t์ ๋ถํฌ
์ ๊ณฑํฉ์ด ์์คํจ์๋ก ์ฐ์ด๋ ๊ฒฝ์ฐ, ์๋ก์ด x๊ฐ ์ฃผ์ด์ก์๋ t์ ์ต์ ์์ธก ๊ฐ์ t์ ์กฐ๊ฑด๋ถ ๊ธฐ๋๊ฐ (์ด์ ๊ฐ์)
t๊ฐ ์์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ๊ฒฝ์ฐ ์กฐ๊ฑด๋ถ ๊ธฐ๋๊ฐ
์ต๋์ฐ๋์ถ์ ๋ฒ์ ํตํ ์ต์ ์ w ๊ตฌํ๊ธฐ
์ฐ๋ํจ์
๋ก๊ทธ ์ฐ๋ํจ์
w์ ๋ํ ๊ธฐ์ธ๊ธฐ ๋ฒกํฐ
๋์์ธ ํ๋ ฌ(design matrix)
normal equations ์ ๋ํ๊ธฐ
์ ๊ฐํ๋ฉด,
์์ ๋ก๊ทธ์ฐ๋ํจ์ ์์์ ฮฒ์ ๋ํด ํธ๋ฏธ๋ถ์ ํตํด ์ต์ ๊ฐ์ ๊ตฌํ ์ ์์
๊ธฐํํ์ ์๋ฏธ
span, range, projection ๋ณต์ต > ์ ํ๋์
ํ๋ ฌ A์ ๊ดํ ์ฌ์
๋ฐ์ดํฐ์ ์ฌ์ด์ฆ๊ฐ ๋๋ฌด ํฌ๋ฉด ๊ณ์ฐ์ด ์ด๋ ค์ -> ์ฌ๋ฌ ๋์์ด ์กด์ฌ, ๊ทธ ์ค ํ๋
๊ฐ๊ณ ์๋ ํ์ต๋ฐ์ดํฐ๋ฅผ ์กฐ๊ธ ๋๋ ์ ์กฐ๊ธ์ฉ ์ ๋ฐ์ดํฐ ์งํ
๋ฐ์ดํฐ๊ฐ ์๋ฌด๋ฆฌ ํฌ๋๋ผ๋ ์ด๋์ ๋ ๋ชจ๋ธ ํ์ต ๊ฐ๋ฅ
๊ทธ ์ค ๋ง์ด ์ฐ์ด๋ Stochastic gradient decent
์ ๊ณฑํฉ ์๋ฌํจ์์ธ ๊ฒฝ์ฐ,
์๊ฐ์ ๋ง์ด ๊ฑธ๋ฆฌ๋๋ผ๋, ๋ฉ๋ชจ๋ฆฌ์ ๋ํ ๋ถ๋ด์ โ
์๋ฌํจ์์ ๊ฐ์ฅ ๋จ์ํ ํํ
lambda์ ์ํด ๊ท์ ํ ์ปจํธ๋กค
์ผ๋ฐํ๋ ๊ท์ ํ
์ด๋, ์ ์ฝ์กฐ๊ฑด์ ๋์ด ์๊ฐํ๋ฉด (constrained minimization ๋ฌธ์ ๋ก ๋ํ๋ด๋ฉด),
๋ชจ๋ธ ๊ณผ์ ํฉ์ ๋ํ ์ด๋ก ์ ์ธ ๋ถ์
์ ๊ณฑํฉ ์์คํจ์๊ฐ ์ฃผ์ด์ก์๋์ ์ต์ ์์ธก๊ฐ
์์คํจ์์ ๊ธฐ๋๊ฐ
์ ํ๋ ๋ฐ์ดํฐ์ ๋ง ์์์๋ ์ต์ ์์ธก๊ฐ h(x)๋ฅผ ์์ ์๋ค.
๋ฐ๋ผ์ ๋ชจ๋ธ์ ๋ถํ์ค์ฑ์ ํํํ๊ธฐ ์ํด์๋ ๋ฒ ์ด์ง์/๋น๋์ฃผ์ ๋ฐฉ๋ฒ์ด ์์
๋ฒ ์ด์ง์ ๋ฐฉ๋ฒ์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ w์ ์ฌํํ๋ฅ ๋ถํฌ๋ฅผ ๊ณ์ฐ
๋น๋์ฃผ์ ๋ฐฉ๋ฒ์ w์ ์ ์ถ์ ๊ฐ์ ๊ตฌํ๊ณ , ์ฌ๋ฌ ๋ฐ์ดํฐ์ ์ ๋ํด ๋ฐ์ํ๋ ํ๊ท ์ ์ธ ์์ค์ ๊ณ์ฐํ๋ ๊ฐ์ ์คํ์ ํตํด ์ ์ถ์ ๊ฐ์ ๋ถํ์ค์ฑ์ ํด์โ
/ ๋น๋์ฃผ์ ๋ฐฉ๋ฒ...
ํน์ ๋ฐ์ดํฐ ์ D์ ๋ํ ์์ค
์์ค ํจ์์ ๊ธฐ๋๊ฐ
์ฌ๋ฌ ๊ฐ(L๊ฐ)์ ๋ฐ์ดํฐ์ ์ด ์ฃผ์ด์ก์ ๋, ์ด ๊ฐ๋ค์ ํ๊ท ?
๋ฐ๋ผ์,
์์ ๋ โ, ๋ณต์ก๋ โ, var โ, bias^2 โ (var, bias : trade-off)
๋ชจ๋ธํ์ต์ ์ ์ ํ ๋ชจ๋ธ๋ณต์ก๋(์์ ๋)๋ฅผ ๊ฐ์ง์ ์๋๋ก ํด์ผ ์ข์ ๋ชจ๋ธ(์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด ๋๋ฌด ๊ณผ์ ํฉ๋์ง ์์ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์๋ ๋ชจ๋ธ)โ
์์์ ์ฒ๋ผ ๋น๋์ฃผ์๋ฐฉ๋ฒ์ผ๋ก๋ ๋ชจ๋ธ์ ๋ถํ์ค์ฑ์ ๋ํ๋ด๊ธฐ ํ๋ฆโ ๋ฒ ์ด์ง์ ์ ํํ๊ท๋ฅผ ํตํด ํจ์ฌ ๋ ๋ถํ์ค์ฑ์ ๊น๋ํ๊ฒ ๋ค๋ฃฐ ์ ์์โ
ํ๋ผ๋ฏธํฐ w์ ์ฌ์ ํ๋ฅ
์ฐ๋
์ฌํํ๋ฅ
(using ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ์ํ ๋ฒ ์ด์ฆ ์ ๋ฆฌ)
์ฌํํ๋ฅ ์ ๋ก๊ทธ๊ฐ
๋ฒ ์ด์ง์ ๋ฐฉ๋ฒ์ ๋น๋์ฃผ์๋ณด๋ค ์ผ๋ฐ์ ์ด๊ณ , ๊ฐ๋ ฅํ ๋ฐฉ๋ฒ๋ก โ
์์ธก๊ฐ์ ๋ถํฌ๋ฅผ ๊ตฌํ ์ ์์โ
์์ธก ๋ถํฌ (Predictive Distribution)
์๋ก์ด ์ ๋ ฅ x์ด ์ฃผ์ด์ก์ ๋, t ์์ธก
์ด์ ๊ฒฐ๊ณผ ์ ์ฉํ๋ฉด,
10๋ช ์ค 4๋ช ์ ๋ฝ์ ๊ฒฝ์ฐ์ ์ ์ ๊ฐ๋ค. 4๋ช ์ ๋ฝ์ผ๋ฉด 6๋ช ์ด ์๋์ผ๋ก ๊ฒฐ์ ๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ํ ์ด๋ 10๋ช ์ค 6๋ช ์ ๋ฝ์ ๊ฒฝ์ฐ์ ์์ ๊ฐ์ผ๋ฉฐ ์ฆ๋ช ํ์ง ์์๋ ๊ฐ๋ ์ ์ผ๋ก ๋ผ๋ ๊ฒ์ ์ ์ ์๋ค.
์ด๋ 10๋ช ์ค 5๋ช ์ ๋ฝ๋ ๊ฒฝ์ฐ์ ์์ ๊ฐ์๋ฐ ์ฌ๊ธฐ์ 1/2 ๋ฅผ ํด์ผํ๋ค. ์๋ํ๋ฉด 5๋ช ์ ๋ฝ์ผ๋ฉด ์๋์ผ๋ก 5๋ช ์ด ๊ฒฐ์ ๋๋ ๊ฒฝ์ฐ์์ ์ด๋ฏธ ๋ฐ๋ํธ์์๋ ๋์์ 5๋ช ์ ๋ฝ๋ ๊ฒฝ์ฐ์ ์๊ฐ ๊ฐ์ด ์นด์ดํธ ๋๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ผ์ ์ค๋ณต์ผ๋ก ์นด์ดํธ๋ ๊ฒ์ ์ ํ๊ธฐ ์ํด 1/2์ ๊ณฑํด์ผ ํ๋ค.
์ด๋ ๊ฒ, ํญ์ ๊ฒฝ์ฐ๋ฅผ ์ ๋ณด๊ณ ์ค๋ณต์ ์ฌ๋ถ๋ฅผ ์ ํ๋จํด์ผ ํ๋ค.
๋ค์์ ๊ฒฝ์ฐ์ ์๊ฐ ๋ง๋์ง๋ฅผ ๊ฒฐ์ ํ๊ธฐ ์ํด ๋ช๊ฐ์ง ์ผ์ด์ค๋ฅผ ์๊ฐํด๋ณธ๋ค.
k = 0์ผ๋, = 1
์๋ฌด๊ฒ๋ ๊ฒฐ์ ํ์ง ์์ ๋์ ๊ฒฝ์ฐ์ ์๋ 1์ด ๋ง๋ค. 0! = 1
k = 1์ผ๋, = n
n๊ฐ ์ค 1๊ฐ๋ฅผ ๋ฝ๋ ๊ฒฝ์ฐ์ ์๋ n๊ฐ
n = 2์ผ๋, = = k+1
n = 4, k= 6 ์ผ๋
3 / 0 / 2 / 1
ooo||oo|o => o of k and | of n-1
์ด๋ n+k-1 ๊ฐ์ ์์น์์ k๊ฐ์ ์ ์ ์์น์ํค๋ ๊ฐ๋ ๊ณผ ๋์ผ
์ ์ ์์น๊ฐ ๊ฒฐ์ ๋๋ฉด ๋ถ๋ฆฌ์ ์ ์์น๊ฐ ์๋์ผ๋ก ๊ฒฐ์ ๋๋ค
n = 2์ผ๋ => ๋์ ์ ๋ค์ง๋ ์ํฉ
์๋ฉด๊ณผ ๋ท๋ฉด์ด ๊ณต์ ํ ํ๋ฅ ์ ๊ฐ์ง๋ฉด 4๊ฐ์ง ๊ฒฝ์ฐ๋ฅผ ๊ฐ์ง๋ค
๋์ ํ ๊ฐ๋ฅผ ๋๋ฒ๋์ง๊ณ ์ด ๋์ ์ด ์ ๋ ๊ตฌ๋ณํ ์ ์๋ค๊ณ ๊ฐ์ ํ๋ฉด ์ค์ ๋ก๋ 3๊ฐ์ง ๊ฒฝ์ฐ(?)
ํด์์ ์ํ ์ฆ๋ช
ex)์ด๋ฐ์ ์ด์ผ๊ธฐํ 10๊ฐ์ค 4๊ฐ๋ฅผ ๋ฝ์ ํ๋ฅ = 10๊ฐ์ค 6๊ฐ๋ฅผ ๋ฝ์ ํ๋ฅ
ํฉํ ๋ฆฌ์ผ์ ๊ฐ์ง๊ณ ๋น๊ตํ์ง ์์์
n= k
n๋ช ์ค์์ ๋์๋ฆฌ์ ๋ค์ด๊ฐ k๋ช ์ ์ฌ๋์ ๊ณ ๋ฅด๊ณ ์ด ์ค ๋ํ 1๋ช ์ ๋ฝ์ ๊ฒฝ์ฐ์ ์
๊ทธ๋ฌ๋ ์ด๋ ํด์์ ์ผ๋ก ๋ค๋ฅด๊ฒ ๋งํ ์ ์๋ค
n๋ช ์ค์์ ๋ํ 1๋ช ์ ๋ฝ๊ณ ๋๋จธ์ง ์ค์์ k-1๋ช ์ ์ฌ๋์ ๋ฝ์ ๊ฒฝ์ฐ์ ์
= : ๋ฐฉ๋ฐ๋ฅด๋ชฝ๋ ํญ๋ฑ์
์ด๋ฅผ ์ฆ๋ช ํ๋ ค๋ฉด ํฉํ ๋ฆฌ์ผ์ ์ฌ์ฉํ๊ฑฐ๋ ์ดํญ ์ ๋ฆฌ๋ฅผ ์ด์ฉํด์ผ ํ๋ค
์ข๋ณ : m+n๊ฐ ์ค k๊ฐ๋ฅผ ๊ณ ๋ฅด๋ ๊ฒ
์ฐ๋ณ : m+n๊ฐ๋ฅผ m๊ฐ์ n๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๋๋ ๋ค k๋ช ์ด ๋๋๋ก ๋ฝ๋ ๊ฒ. (์ด ๋ m์์ 0๋ช ์ด ๋ฝํ๋ฉด n๋ช ์์๋ ์๋์ผ๋ก k๋ช ์ด ๋ฝํ๊ณ , m๋ช ์์ 1๋ช ์ด ๋ฝํ๋ฉด n๋ช ์์ k-1๋ช ์ด ๋ฝํ๋ค)
์ง๊ธ๊น์ง๋ ๋ชจ๋ ๋์ผํ ํ๋ฅ ์ด ๋ฐ์ํ๋ค๊ณ ๊ฐ์ ํ๊ณ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ผ๋ฉฐ ๊ทธ ๊ฒฝ์ฐ์ ์๋ ์ ํํ๋ค๊ณ ๊ฐ์ ํ ๋ค ํ๋ฅ ์ ์ ์ํ๋ค.
๊ฐ๋จํ์ง ์์ ํ๋ฅ ์ ์ ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
ํ๋ฅ ๊ณต๊ฐ์๋ ๋ ๊ฐ์ ์ฑ๋ถ S์ P๊ฐ ์๋ค.
S๋ ํ๋ณธ ๊ณต๊ฐ์ด๋ฉฐ ๋ชจ๋ ์คํ์ด ์ด๋ฃจ์ด ์ง ์ ์๋ ๊ณต๊ฐ.
P๋ ํจ์์ด๋ค.(๋๋ฌ๋ f(x) = x+ 3 ๊ฐ์ ํจ์๋ ์๋๋ค) ์ด๋ค ์ฌ๊ฑด์ ์ ๋ ฅ์ผ๋ก ํ๋ ํจ์์ด๋ค. P์ ์ ์์ญ์ S์ ๋ถ๋ถ์งํฉ์ด๋ค.
S์ ๋ถ๋ถ์งํฉ A๊ฐ ์์ ๋ P(A)๋ 0๋ถํฐ 1 ์ฌ์ด์ ์์ด๋ฉฐ, ์ผ๋ฐ์ ์ธ ํ๋ฅ ์ 0๊ณผ 1์ฌ์ด์ ๊ธฐ์ค์ด๋ค. ์ด ๋ P๋ฅผ ์ ์ํ๊ธฐ ์ํ ๋ ๊ฐ์ง ์ ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ๋ค.
P() = 0, P(S) = 1
๋ชจ๋ ๊ฐ๋ฅํ ๊ฒฐ๊ณผ์ ์งํฉ์ด S์ผ ๋, ๋ฐ์ํ ์ ์๋ ๋ถ๊ฐ๋ฅํ ์ฌ๊ฑด์ด ์ด๋ค.
ํ๋ฅ ์ ๋ชจ๋ ์ ์์ ๊ท์น์ ์ด ๋ ์ ๋ฆฌ๋ก๋ถํฐ ํ์๋๋ค.
: ๊ฒฐ์ ๋ก ์ ํจ์(deterministic)
: ๋ ธ์ด์ฆ ํ๋ฅ ๋ณ์
์ ๋ ฅ ๊ฐ :
์ถ๋ ฅ ๊ฐ :
๋ก๊ทธ์ฐ๋ํจ์ ์ต๋ํ์ํค๋ w๊ฐ = ๋ก ์ฃผ์ด์ง ์ ๊ณฑํฉ ์๋ฌํจ์ ์ต์ํ์ํค๋ ๊ฐโ
w์ ์ต์ ๊ฐ : (normal equations)
์ Moore-Penrose pseudo-inverse :
design matrix์ ๋ชจ๋ ์ด์ด ์ ํ ๋ ๋ฆฝ์ด๋ฉด, ์กด์ฌโ (ํญ์์ฑ๋ฆฝํ์ง ์์ง๋ง ๋ง์ ๊ฒฝ์ฐ์ ์ฑ๋ฆฝํ๋ฉฐ, ์ฑ๋ฆฝํ์ง ์์ ๊ฒฝ์ฐ์ ๋ํด ์ฑ๋ฆฝํ๋๋ก ๋ฐ์ดํฐ ์กฐ์ ๊ฐ๋ฅ)
๊ตฌํ ์๋ฌํจ์๋ฅผ ํธํฅ ํ๋ผ๋ฏธํฐ(bias parameter) ๋ก ํํํ๋ฉด
์ด๋ ๋ ์ ์ฐจ์ด๋ฅผ ๋ณด์ ํด์ฃผ๋ ์ญํ โ
์๋ฌํจ์๊ฐ ๋ผ ํ ๋, ์ผ๋ก ํ์ต ์งํ
์ผ๋ก ํํ
w์ ๋ํด ๋ฏธ๋ถํ๊ณ , ์ ๋ฆฌํ๋ฉด w์ ์ต์ ๊ฐ ->
๋ฅผ ๋ง์กฑํ๋ฉด์ ๋ฅผ ์ต์ํ์ํค๋ ํด ์ฐพ๊ธฐ !
์ ๋ํด ๋ณํํ๋ฉด
์ ๋ฆฌํ๋ฉด,
์ฌ์ ํ๋ฅ ์ ๊ณต๋ถ์ฐ ์ด๋ผ๊ณ ๊ฐ์ ํ๋ฉด,
, ์๋ ด
mN์ ๋์ ํ๋ฉด,
(normal equations)