(09๊ฐ) Generative Models 1
210813
Last updated
Was this helpful?
210813
Last updated
Was this helpful?
Generative model์ ๋ง๋ ๋ค, ํ์ตํ๋ค๋ผ๋ ๊ฒ์?
๊ทธ๋ด๋ฏํ ์ด๋ฏธ์ง๋ ๋ฌธ์ฅ์ ๋ง๋๋ ๊ฒ์ด๋ผ๊ณ ๋ณดํต ์๊ฐํ๋ค
๊ทธ๋ฌ๋, ๋จ์ํ "์์ฑ"์ ์๋ฏธ๋ง์ ๊ฐ์ง๋ ๊ฒ์ด gen model์ ์ ๋ถ๋ ์๋๋ค. ๊ทธ๊ฒ๋ณด๋ค ๋ ๋ง์ ๊ฐ๋ ์ ํฌํจํ๋ค
Generation : ํ์ต ๋ฐ์ดํฐ์ ์ ์๋ ๊ฐ์์ง ์ฌ์ง์ ๋ง๋๋ ๊ฒ๋ gen์ด ํ ์์๋ ์ผ.
Density estimation : ๊ฐ์์ง ๊ฐ์์ง ์๋์ง ๊ตฌ๋ณํ ์ ์๋ ๋ฅ๋ ฅ
๋ง์น ๋ถ๋ฅ๋ชจ๋ธ๊ณผ ๊ฐ๋ค.
์ด๋ค ๋ชจ๋ธ์ด Generative model์ด๋ผ๊ณ ํ๋ฉด, ๊ทธ ๋ชจ๋ธ์ ๋จ์ํ generation ํ๋ ๋ฅ๋ ฅ๋ฟ๋ง ์๋๋ผ ๋ถ๋ฅํ ์ ์๋ ๋ฅ๋ ฅ๊น์ง ํฌํจํ๋ค.
explicit model์ ์ํ๋ค. ์ ๋ ฅ์ด ์ฃผ์ด์ก์ ๋ ์ ๋ ฅ์ ๋ํ ํ๋ฅ ๊ฐ์ ์ป์ด๋ผ ์ ์๋ ๋ชจ๋ธ์ ๋ปํ๋ค.
feature learning : gen model์ unsupervised learning๋ ๊ฐ๋ฅํ๋ค๊ณ ์ด์ผ๊ธฐ ํ๋ค.
์๋ฅผ ํ๋ฒ ๋ค์ด๋ณด์
ํ ํฝ์ ๋น ํํํ ์ ์๋ ์์ ๋ช๊ฐ์ง์ผ๊น?
256 * 256 * 256
๊ทธ๋ ๋ค๋ฉด ์์ ์ ์ํ๊ธฐ ์ํด ํ์ํ ํ๋ผ๋ฏธํฐ ์๋ ๋ช๊ฐ์ผ๊น?
๋ฐ์ด๋๋ฆฌ ์ด๋ฏธ์ง(ํ๋ฐฑ ์ด๋ฏธ์ง)์์ ํฝ์ ์ด n๊ฐ๋ผ๋ฉด ๋ง๋ค ์ ์๋ ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ์ ์๋ ๋ช๊ฐ์ผ๊น?
๊ทธ๋ ๋ค๋ฉด ์ฐจ์์ด n์ธ ๋ฒกํฐ X๊ฐ n๊ฐ ์๋ค๊ณ ํ์ ๋, ์ด ๋ฒกํฐ๋ฅผ ์ ์ํ๋ ค๋ฉด ํ์ํ ํ๋ผ๋ฏธํฐ ์๋ ๋ช๊ฐ์ผ๊น?
์ฌ๊ธฐ์, ์์ง๋ n๊ฐ์ ํฝ์ ์ ๊ตฌ์ฑํ ๋ ์กฐ๊ธ ๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ ์ ์์๊น? ๋ผ๋ ๊ฒ. ๊ทธ๋์ ๋ค์๊ณผ ๊ฐ์ ๊ฐ์ ์ ๋๋ค. ํฝ์ ๋ค์ ์๋ก "Independent" ํ๋ค.
ํ์ฌ ํฝ์ ์ด ์ฃผ๋ณ ํฝ์ ์๊ฒ ์ํฅ์ ์ฃผ์ง ์๊ณ , ์ํฅ์ ๋ฐ์ง์๋๋ค๋ ๋ป์ผ๋ก ํด์ํ๋ฉด ๋๋ค.
๊ทธ๋ ๊ฒ ๋๋ฉด ๊ฒฝ์ฐ์ ์๋ ๋๊ฐ์ง๋ง ํ์ํ ํ๋ผ๋ฏธํฐ ์๋ n๊ฐ๋ง ์์ผ๋ฉด ๋๋ค.
๊ฐ๊ฐ์ ํฝ์ ์ ๋ฒ ๋ฅด๋์ด ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ฏ๋ก ํ์ํ ๋ชจ์๋ ํ๋ฅ p ํ๋์ด๋ค. ๋ ํ๋ฅ p(x1, ... xn)์์ ๊ฐ๊ฐ์ x๋ ๋ ๋ฆฝ์ด๋ฏ๋ก joint distribution์ด ๊ฐ๋ฅํด์ ๊ฐ๊ฐ์ ํ๋ฅ ๊ณฑ p(x1)p(x2)...p(xn) ์ผ๋ก ํํ์ด ๊ฐ๋ฅํ๋ค. ๋ฐ๋ผ์ ํ์ํ ํ๋ผ๋ฏธํฐ์ ๊ฐ์๋ n์ด๋ค.
๊ทธ๋ฌ๋ ์ด๊ฑด ์ด๋๊น์ง๋ Independent Assumption์ด ์์ฉํ์ ๋์ ์ด์ผ๊ธฐ
Fully Dependentํ๋ฉด ํ๋ผ๋ฏธํฐ์๊ฐ ๋๋ฌด ๋ง๊ณ , Independent ํ์๋ ํ๋ผ๋ฏธํฐ์๋ ์ค์ด๋ค์ด์ ์ข์ง๋ง ํํํ ์ ์๋ ์ด๋ฏธ์ง๊ฐ ์ ์ด์ง๊ธฐ ๋๋ฌธ์ ๊ทธ ์ค๊ฐ์ฏค์ ์ฐพ๋ ๊ฒ์ด ๋ชฉํ
๊ทธ๋์ Conditional Independence ๋ฅผ ์ฌ์ฉํ๊ฒ๋๋ค.
๊ธฐ๋ณธ์ ์ผ๋ก ์ฐ๋ ์ฐ์๋ฒ์น์ด๋ค. x์ ๋ ๋ฆฝ/์ข ์์ ๊ด๊ณ์์ ํญ์ ๋ง์กฑํ๋ค
๋ง์ฐฌ๊ฐ์ง๋ก ํญ์ ๋ง์กฑํ๋ ๋ฒ์น
์ด๋ ํญ์ ๋ง์กฑํ์ง๋ ์๋ค. z๊ฐ ์ฃผ์ด์ก์ ๋ x์ y๊ฐ independent ํ๋ค๋ฉด ๋ง์กฑํ๋ค.
์ฒด์ธ๋ฃฐ์ ์ฌ์ฉํ ๋ ํ์ํ ํ๋ผ๋ฏธํฐ ๊ฐ์๋ ๋ช๊ฐ์ผ๊น?
๋ ์ด๋ถ๋ถ์ด ์ดํด๊ฐ ์ ์๊ฐ๋ค๊ฐ ์ง๋ฌธํ๊ณ ๊ณ ๋ฏผํ๊ณ ํ ๋์ ์ดํดํ๋ค
์ข ์์ : p(x2|x1)์ ๋ค์๊ณผ ๊ฐ์ด ๋๊ฐ์ง๋ก ํํ ๊ฐ๋ฅ p(x2|x1=1)๊ณผ p(x2|x1=0)
p(x2|x1=1) ์์ ํ์ํ x2๋ฅผ ๊ฒฐ์ ํ๋ํ๋ฅ q1
p(x2|x1=0) ์์ ํ์ํ x2๋ฅผ ๊ฒฐ์ ํ๋ ํ๋ฅ q2
์ด ๋ ํ๋ฅ q1๊ณผ q2๊ฐ ํ์ํ๋ฏ๋ก ์ข ์์ ์ผ ๋๋ ์ธ ๊ฐ(p, q1, q2)์ ํ๋ผ๋ฏธํฐ ํ์(2^n-1๊ฐ)
๋ง์ฝ q1 = q2๊ฐ ๊ฐ๋ค๋ฉด x1์ด ๋ญ๋ ๊ฐ์ x2์ ํ๋ฅ ์ด ๊ฐ๋ค๋ ๊ฒ์ด๋ฏ๋ฅด ์ข ์์ด๋ผ๋ ๊ฐ์ ์ ์๋ฐฐ
๋ ๋ฆฝ์ : p(x2|x1) = p(x2) ์ด๋ฏ๋ก x2๋ฅผ ๊ฒฐ์ ํ๋ ํ๋ฅ q ๋ฐ๋ผ์, ๋ ๋ฆฝ์ ์ผ ๋๋ ๋ ๊ฐ(p, q)์ ํ๋ผ๋ฏธํฐ ํ์(n๊ฐ)
์ด์ Markov assumption์ด๋ผ๊ณ ๊ฐ์ ํด๋ณด์. ๊ทธ๋ผ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ๋ค.
์ด๋ ํ์ฌ ๋ฐ์ดํฐ๋ ๊ฐ์ฅ ์ต๊ทผ์ ๋ฐ์ดํฐ ํ๋์๋ง ์์กด์ ์ด๋ผ๋ ๊ฒ(=์ํฅ์ ๋ฐ๋๋ค)
ํ์ํ ํ๋ผ๋ฏธํฐ ์๋ ๋ค์๊ณผ ๊ฐ๋ค
x1์ ํ๊ฐ๊ฐ ํ์ํ๊ณ ๊ทธ ๋ค๋ถํฐ๋ 2๊ฐ์ฉ ํ์ํ๋ฏ๋ก
๋ฐ๋ผ์ ์ฐ๋ฆฌ๊ฐ ์กฐ๊ฑด์ ์ด๋ป๊ฒ ์ ํด์ฃผ๋์ ๋ฐ๋ผ์ ํ์ํ ํ๋ผ๋ฏธํฐ ์๊ฐ ๋ฌ๋ผ์ง๋ฉฐ ๋ ๋ฆฝ์ ๊ฐ๊น์ธ ์๋ก ์ ์ด์ง๊ณ ์ข ์์ ๊ฐ๊น์ธ ์๋ก ๋ง์์ง๋ค.
์ด๋ ๊ฒ conditional independency๋ฅผ ์ ํ์ฉํ๋ ๋ชจ๋ธ์ Auto-regressive Model ์ด๋ผ๊ณ ํ๋ค.
์์ ๊ฐ์ด MNIST 28*28 ๋ฐ์ด๋๋ฆฌ ์ด๋ฏธ์ง๊ฐ ์๋ค๊ณ ํ์. ์ฐ๋ฆฌ์ ๋ชฉํ๋ p(xi)๋ฅผ ํ์ตํ๋ ๊ฒ.(i๋ 1๋ถํฐ 784) ์ด ๋ p(x)๋ฅผ ์ด๋ป๊ฒ ์ ์ํ ๊น?
๋ฐ๋ก, ์ฐ์๋ฒ์น์ ์ฌ์ฉํด์ ๊ฒฐํฉ ๋ถํฌ๋ก ๋ณ๊ฒฝํ๋ ๊ฒ. ์ด ๋ ์ฌ๋ฌ ์กฐ๊ฑด์ ์ค์ ํ ์ ์๋๋ฐ, ํ์ฌ ๋ฐ์ดํฐ๊ฐ ๋ฐ๋ก ์ ๋ฐ์ดํฐ์๋ง ์ํฅ์ ๋ฐ๋ , ํ์ฌ ๋ฐ์ดํฐ๊ฐ ์ฒซ ๋ฐ์ด๋๋ถํฐ ๋ฐ๋ก ์ ๋ฐ์ดํฐ๊น์ง์ ์ํฅ์ ๋ฐ๋ ๋ชจ๋ Auto-regressive Model์ด๋ผ๊ณ ํ ์ ์๋ค.
์ซ์๋ , ๋ฌธ์๋ , ์ด๋ฏธ์ง๋ ์์๋ฅผ ์ ํด์ฃผ๋ ๊ฒ์ด ์ค์ํ๋ค.
์ด๋ฏธ์ง์ ์์๋ฅผ ์ ํด์ฃผ๋ ๊ฒ์ ์ ๋งคํ๋ค. ๊ฐ๋ก๋ก ํ์ค๋ก ๋์ดํ ์๋ ์๊ณ , ์ง๊ทธ์ฌ๊ทธ๋ก ์์๋ฅผ ์ ํ ์๋ ์๋ค. ์ด์ ๋ฐ๋ผ ์ฑ๋ฅ๋ ๋ฌ๋ผ์ง ๊ฒ์ด๊ณ ๋ฐฉ๋ฒ๋ก ๋ ๋ฌ๋ผ์ง ๊ฒ์ด๋ค.
Auto-reg๊ฐ ๋ฐ์ดํฐ 1๊ฐ๋ง์ ๊ณ ๋ คํ ๋ AR-1 ๋ชจ๋ธ์ด๋ผ๊ณ ํ๋ฉฐ n๊ฐ๋ฅผ ๊ณ ๋ คํ ๋๋ AR-n ๋ชจ๋ธ์ด๋ผ๊ณ ํ๋ค
๊ฐ ๋ฐ์ดํฐ์ ์ ์์์ ์ ๊ฒฝ๋ง์ ์ด์ ๋ฐ์ดํฐ์ ์ ์ ๋ ฅ๋ฐ์ผ๋ฏ๋ก ๋ช ํํ Autoreg ๋ชจ๋ธ์ด๋ค. ๊ฐ ์ ๊ฒฝ๋ง์ ์ ์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ฐจ์์ด ์ปค์ง๊ฒ๋๊ณ ์ด์ ๋ฐ๋ผ ๊ฐ์ค์น์ ํฌ๊ธฐ๋ ์ปค์ง๊ฒ ๋๋ค.
์ด ๋ชจ๋ธ์ ํ๋ฅ ๋ถํฌ๋ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌํ ์ ์๋ค.
impulse ๋ชจ๋ธ์ generating๋ง ํ ์์๋๋ฐ ๋ฐํด explicit ๋ชจ๋ธ์ generate์ classify๋ฅผ ๋ ๋ค ํ ์ ์๋ค.
๋, ๋ง์ฝ์ ์ฐ์ํ๋ฅ ๋ถํฌ์ผ๊ฒฝ์ฐ ๊ฐ์ฐ์์ ํผํฉ๋ชจ๋ธ๋ฅผ ์ฌ์ฉํ ์ ์๋ค.
RNN์ ์ฌ์ฉํด์ ํฝ์ ์ ์์ฑํ๋ ๋ชจ๋ธ
autoreg ๋ชจ๋ธ์ FC๋ฅผ ๊ฑฐ์ณ์ ๋ง๋ค์ด์ง๋๋ฐ, pixel rnn์ recurrent๋ฅผ ํตํด generation์ด ์ด๋ฃจ์ด์ง๋ค.
๋, ์ด ๋ ordering ํ๋ ๋ฐฉ๋ฒ์ ๋ฐ๋ผ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๊ธฐ๋๋ฐ
Row LSTM์ ์์ ๋ณด๋ค ์์ชฝ์ ์๋ ์ ๋ณด๋ฅผ ํ์ฉํ๊ฒ ๋ค๋ ๊ฒ์ด๊ณ Diagonal BiLSTM์ ์์ ๋ณด๋ค ์ด์ ์ ์๋ ์ ๋ณด๋ฅผ ํ์ฉํ๊ฒ ๋ค๋ ๊ฒ์ด๋ค
์๋ณด๋ฉด ์ฒ์์ Fully Independent ํ ๋๋ ๊ฐ์ด๊ณ Markov assumption์ ์ ์ฉํ๋ ์ง์๊ฐ ํ ์ฐจ์ ๋ด๋ ค๊ฐ ๊ทธ๋ฆฌ๊ณ ์์ ๋ ๋ฆฝ์ผ ๋๋ ๊ฐ์ด๋ค.