(09๊ฐ) Generative Models 1
210813
Introduction
Generative model์ ๋ง๋ ๋ค, ํ์ตํ๋ค๋ผ๋ ๊ฒ์?
๊ทธ๋ด๋ฏํ ์ด๋ฏธ์ง๋ ๋ฌธ์ฅ์ ๋ง๋๋ ๊ฒ์ด๋ผ๊ณ ๋ณดํต ์๊ฐํ๋ค
๊ทธ๋ฌ๋, ๋จ์ํ "์์ฑ"์ ์๋ฏธ๋ง์ ๊ฐ์ง๋ ๊ฒ์ด gen model์ ์ ๋ถ๋ ์๋๋ค. ๊ทธ๊ฒ๋ณด๋ค ๋ ๋ง์ ๊ฐ๋ ์ ํฌํจํ๋ค

Generation : ํ์ต ๋ฐ์ดํฐ์ ์ ์๋ ๊ฐ์์ง ์ฌ์ง์ ๋ง๋๋ ๊ฒ๋ gen์ด ํ ์์๋ ์ผ.
Density estimation : ๊ฐ์์ง ๊ฐ์์ง ์๋์ง ๊ตฌ๋ณํ ์ ์๋ ๋ฅ๋ ฅ
๋ง์น ๋ถ๋ฅ๋ชจ๋ธ๊ณผ ๊ฐ๋ค.
์ด๋ค ๋ชจ๋ธ์ด Generative model์ด๋ผ๊ณ ํ๋ฉด, ๊ทธ ๋ชจ๋ธ์ ๋จ์ํ generation ํ๋ ๋ฅ๋ ฅ๋ฟ๋ง ์๋๋ผ ๋ถ๋ฅํ ์ ์๋ ๋ฅ๋ ฅ๊น์ง ํฌํจํ๋ค.
explicit model์ ์ํ๋ค. ์ ๋ ฅ์ด ์ฃผ์ด์ก์ ๋ ์ ๋ ฅ์ ๋ํ ํ๋ฅ ๊ฐ์ ์ป์ด๋ผ ์ ์๋ ๋ชจ๋ธ์ ๋ปํ๋ค.
feature learning : gen model์ unsupervised learning๋ ๊ฐ๋ฅํ๋ค๊ณ ์ด์ผ๊ธฐ ํ๋ค.
Basic Discrete Distributions
์๋ฅผ ํ๋ฒ ๋ค์ด๋ณด์

ํ ํฝ์ ๋น ํํํ ์ ์๋ ์์ ๋ช๊ฐ์ง์ผ๊น?
256 * 256 * 256
๊ทธ๋ ๋ค๋ฉด ์์ ์ ์ํ๊ธฐ ์ํด ํ์ํ ํ๋ผ๋ฏธํฐ ์๋ ๋ช๊ฐ์ผ๊น?

๋ฐ์ด๋๋ฆฌ ์ด๋ฏธ์ง(ํ๋ฐฑ ์ด๋ฏธ์ง)์์ ํฝ์ ์ด n๊ฐ๋ผ๋ฉด ๋ง๋ค ์ ์๋ ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ์ ์๋ ๋ช๊ฐ์ผ๊น?
2n
๊ทธ๋ ๋ค๋ฉด ์ฐจ์์ด n์ธ ๋ฒกํฐ X๊ฐ n๊ฐ ์๋ค๊ณ ํ์ ๋, ์ด ๋ฒกํฐ๋ฅผ ์ ์ํ๋ ค๋ฉด ํ์ํ ํ๋ผ๋ฏธํฐ ์๋ ๋ช๊ฐ์ผ๊น?
2nโ1
์ฌ๊ธฐ์, ์์ง๋ n๊ฐ์ ํฝ์ ์ ๊ตฌ์ฑํ ๋ ์กฐ๊ธ ๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ ์ ์์๊น? ๋ผ๋ ๊ฒ. ๊ทธ๋์ ๋ค์๊ณผ ๊ฐ์ ๊ฐ์ ์ ๋๋ค. ํฝ์ ๋ค์ ์๋ก "Independent" ํ๋ค.
ํ์ฌ ํฝ์ ์ด ์ฃผ๋ณ ํฝ์ ์๊ฒ ์ํฅ์ ์ฃผ์ง ์๊ณ , ์ํฅ์ ๋ฐ์ง์๋๋ค๋ ๋ป์ผ๋ก ํด์ํ๋ฉด ๋๋ค.
๊ทธ๋ ๊ฒ ๋๋ฉด ๊ฒฝ์ฐ์ ์๋ ๋๊ฐ์ง๋ง ํ์ํ ํ๋ผ๋ฏธํฐ ์๋ n๊ฐ๋ง ์์ผ๋ฉด ๋๋ค.
๊ฐ๊ฐ์ ํฝ์ ์ ๋ฒ ๋ฅด๋์ด ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ฏ๋ก ํ์ํ ๋ชจ์๋ ํ๋ฅ p ํ๋์ด๋ค. ๋ ํ๋ฅ p(x1, ... xn)์์ ๊ฐ๊ฐ์ x๋ ๋ ๋ฆฝ์ด๋ฏ๋ก joint distribution์ด ๊ฐ๋ฅํด์ ๊ฐ๊ฐ์ ํ๋ฅ ๊ณฑ p(x1)p(x2)...p(xn) ์ผ๋ก ํํ์ด ๊ฐ๋ฅํ๋ค. ๋ฐ๋ผ์ ํ์ํ ํ๋ผ๋ฏธํฐ์ ๊ฐ์๋ n์ด๋ค.
๊ทธ๋ฌ๋ ์ด๊ฑด ์ด๋๊น์ง๋ Independent Assumption์ด ์์ฉํ์ ๋์ ์ด์ผ๊ธฐ
Fully Dependentํ๋ฉด ํ๋ผ๋ฏธํฐ์๊ฐ ๋๋ฌด ๋ง๊ณ , Independent ํ์๋ ํ๋ผ๋ฏธํฐ์๋ ์ค์ด๋ค์ด์ ์ข์ง๋ง ํํํ ์ ์๋ ์ด๋ฏธ์ง๊ฐ ์ ์ด์ง๊ธฐ ๋๋ฌธ์ ๊ทธ ์ค๊ฐ์ฏค์ ์ฐพ๋ ๊ฒ์ด ๋ชฉํ
๊ทธ๋์ Conditional Independence ๋ฅผ ์ฌ์ฉํ๊ฒ๋๋ค.
Conditional Independence

๊ธฐ๋ณธ์ ์ผ๋ก ์ฐ๋ ์ฐ์๋ฒ์น์ด๋ค. x์ ๋ ๋ฆฝ/์ข ์์ ๊ด๊ณ์์ ํญ์ ๋ง์กฑํ๋ค

๋ง์ฐฌ๊ฐ์ง๋ก ํญ์ ๋ง์กฑํ๋ ๋ฒ์น

์ด๋ ํญ์ ๋ง์กฑํ์ง๋ ์๋ค. z๊ฐ ์ฃผ์ด์ก์ ๋ x์ y๊ฐ independent ํ๋ค๋ฉด ๋ง์กฑํ๋ค.
์ฒด์ธ๋ฃฐ์ ์ฌ์ฉํ ๋ ํ์ํ ํ๋ผ๋ฏธํฐ ๊ฐ์๋ ๋ช๊ฐ์ผ๊น?


๋ ์ด๋ถ๋ถ์ด ์ดํด๊ฐ ์ ์๊ฐ๋ค๊ฐ ์ง๋ฌธํ๊ณ ๊ณ ๋ฏผํ๊ณ ํ ๋์ ์ดํดํ๋ค
์ข ์์ : p(x2|x1)์ ๋ค์๊ณผ ๊ฐ์ด ๋๊ฐ์ง๋ก ํํ ๊ฐ๋ฅ p(x2|x1=1)๊ณผ p(x2|x1=0)
p(x2|x1=1) ์์ ํ์ํ x2๋ฅผ ๊ฒฐ์ ํ๋ํ๋ฅ q1
p(x2|x1=0) ์์ ํ์ํ x2๋ฅผ ๊ฒฐ์ ํ๋ ํ๋ฅ q2
์ด ๋ ํ๋ฅ q1๊ณผ q2๊ฐ ํ์ํ๋ฏ๋ก ์ข ์์ ์ผ ๋๋ ์ธ ๊ฐ(p, q1, q2)์ ํ๋ผ๋ฏธํฐ ํ์(2^n-1๊ฐ)
๋ง์ฝ q1 = q2๊ฐ ๊ฐ๋ค๋ฉด x1์ด ๋ญ๋ ๊ฐ์ x2์ ํ๋ฅ ์ด ๊ฐ๋ค๋ ๊ฒ์ด๋ฏ๋ฅด ์ข ์์ด๋ผ๋ ๊ฐ์ ์ ์๋ฐฐ
๋ ๋ฆฝ์ : p(x2|x1) = p(x2) ์ด๋ฏ๋ก x2๋ฅผ ๊ฒฐ์ ํ๋ ํ๋ฅ q ๋ฐ๋ผ์, ๋ ๋ฆฝ์ ์ผ ๋๋ ๋ ๊ฐ(p, q)์ ํ๋ผ๋ฏธํฐ ํ์(n๊ฐ)
์ด์ Markov assumption์ด๋ผ๊ณ ๊ฐ์ ํด๋ณด์. ๊ทธ๋ผ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ๋ค.
์ด๋ ํ์ฌ ๋ฐ์ดํฐ๋ ๊ฐ์ฅ ์ต๊ทผ์ ๋ฐ์ดํฐ ํ๋์๋ง ์์กด์ ์ด๋ผ๋ ๊ฒ(=์ํฅ์ ๋ฐ๋๋ค)

ํ์ํ ํ๋ผ๋ฏธํฐ ์๋ ๋ค์๊ณผ ๊ฐ๋ค

x1์ ํ๊ฐ๊ฐ ํ์ํ๊ณ ๊ทธ ๋ค๋ถํฐ๋ 2๊ฐ์ฉ ํ์ํ๋ฏ๋ก
์๋ณด๋ฉด ์ฒ์์ Fully Independent ํ ๋๋ 2n๊ฐ์ด๊ณ Markov assumption์ ์ ์ฉํ๋ ์ง์๊ฐ ํ ์ฐจ์ ๋ด๋ ค๊ฐ 2nโ1๊ทธ๋ฆฌ๊ณ ์์ ๋ ๋ฆฝ์ผ ๋๋ n๊ฐ์ด๋ค.
๋ฐ๋ผ์ ์ฐ๋ฆฌ๊ฐ ์กฐ๊ฑด์ ์ด๋ป๊ฒ ์ ํด์ฃผ๋์ ๋ฐ๋ผ์ ํ์ํ ํ๋ผ๋ฏธํฐ ์๊ฐ ๋ฌ๋ผ์ง๋ฉฐ ๋ ๋ฆฝ์ ๊ฐ๊น์ธ ์๋ก ์ ์ด์ง๊ณ ์ข ์์ ๊ฐ๊น์ธ ์๋ก ๋ง์์ง๋ค.
์ด๋ ๊ฒ conditional independency๋ฅผ ์ ํ์ฉํ๋ ๋ชจ๋ธ์ Auto-regressive Model ์ด๋ผ๊ณ ํ๋ค.
Auto-regressive Model

์์ ๊ฐ์ด MNIST 28*28 ๋ฐ์ด๋๋ฆฌ ์ด๋ฏธ์ง๊ฐ ์๋ค๊ณ ํ์. ์ฐ๋ฆฌ์ ๋ชฉํ๋ p(xi)๋ฅผ ํ์ตํ๋ ๊ฒ.(i๋ 1๋ถํฐ 784) ์ด ๋ p(x)๋ฅผ ์ด๋ป๊ฒ ์ ์ํ ๊น?
๋ฐ๋ก, ์ฐ์๋ฒ์น์ ์ฌ์ฉํด์ ๊ฒฐํฉ ๋ถํฌ๋ก ๋ณ๊ฒฝํ๋ ๊ฒ. ์ด ๋ ์ฌ๋ฌ ์กฐ๊ฑด์ ์ค์ ํ ์ ์๋๋ฐ, ํ์ฌ ๋ฐ์ดํฐ๊ฐ ๋ฐ๋ก ์ ๋ฐ์ดํฐ์๋ง ์ํฅ์ ๋ฐ๋ , ํ์ฌ ๋ฐ์ดํฐ๊ฐ ์ฒซ ๋ฐ์ด๋๋ถํฐ ๋ฐ๋ก ์ ๋ฐ์ดํฐ๊น์ง์ ์ํฅ์ ๋ฐ๋ ๋ชจ๋ Auto-regressive Model์ด๋ผ๊ณ ํ ์ ์๋ค.
์ซ์๋ , ๋ฌธ์๋ , ์ด๋ฏธ์ง๋ ์์๋ฅผ ์ ํด์ฃผ๋ ๊ฒ์ด ์ค์ํ๋ค.
์ด๋ฏธ์ง์ ์์๋ฅผ ์ ํด์ฃผ๋ ๊ฒ์ ์ ๋งคํ๋ค. ๊ฐ๋ก๋ก ํ์ค๋ก ๋์ดํ ์๋ ์๊ณ , ์ง๊ทธ์ฌ๊ทธ๋ก ์์๋ฅผ ์ ํ ์๋ ์๋ค. ์ด์ ๋ฐ๋ผ ์ฑ๋ฅ๋ ๋ฌ๋ผ์ง ๊ฒ์ด๊ณ ๋ฐฉ๋ฒ๋ก ๋ ๋ฌ๋ผ์ง ๊ฒ์ด๋ค.
Auto-reg๊ฐ ๋ฐ์ดํฐ 1๊ฐ๋ง์ ๊ณ ๋ คํ ๋ AR-1 ๋ชจ๋ธ์ด๋ผ๊ณ ํ๋ฉฐ n๊ฐ๋ฅผ ๊ณ ๋ คํ ๋๋ AR-n ๋ชจ๋ธ์ด๋ผ๊ณ ํ๋ค
NADE: Neural Autoregressive Density Estimator

๊ฐ ๋ฐ์ดํฐ์ ์ ์์์ ์ ๊ฒฝ๋ง์ ์ด์ ๋ฐ์ดํฐ์ ์ ์ ๋ ฅ๋ฐ์ผ๋ฏ๋ก ๋ช ํํ Autoreg ๋ชจ๋ธ์ด๋ค. ๊ฐ ์ ๊ฒฝ๋ง์ ์ ์ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ฐจ์์ด ์ปค์ง๊ฒ๋๊ณ ์ด์ ๋ฐ๋ผ ๊ฐ์ค์น์ ํฌ๊ธฐ๋ ์ปค์ง๊ฒ ๋๋ค.
์ด ๋ชจ๋ธ์ ํ๋ฅ ๋ถํฌ๋ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌํ ์ ์๋ค.

impulse ๋ชจ๋ธ์ generating๋ง ํ ์์๋๋ฐ ๋ฐํด explicit ๋ชจ๋ธ์ generate์ classify๋ฅผ ๋ ๋ค ํ ์ ์๋ค.
๋, ๋ง์ฝ์ ์ฐ์ํ๋ฅ ๋ถํฌ์ผ๊ฒฝ์ฐ ๊ฐ์ฐ์์ ํผํฉ๋ชจ๋ธ๋ฅผ ์ฌ์ฉํ ์ ์๋ค.
Pixel RNN
RNN์ ์ฌ์ฉํด์ ํฝ์ ์ ์์ฑํ๋ ๋ชจ๋ธ

autoreg ๋ชจ๋ธ์ FC๋ฅผ ๊ฑฐ์ณ์ ๋ง๋ค์ด์ง๋๋ฐ, pixel rnn์ recurrent๋ฅผ ํตํด generation์ด ์ด๋ฃจ์ด์ง๋ค.
๋, ์ด ๋ ordering ํ๋ ๋ฐฉ๋ฒ์ ๋ฐ๋ผ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๊ธฐ๋๋ฐ

Row LSTM์ ์์ ๋ณด๋ค ์์ชฝ์ ์๋ ์ ๋ณด๋ฅผ ํ์ฉํ๊ฒ ๋ค๋ ๊ฒ์ด๊ณ Diagonal BiLSTM์ ์์ ๋ณด๋ค ์ด์ ์ ์๋ ์ ๋ณด๋ฅผ ํ์ฉํ๊ฒ ๋ค๋ ๊ฒ์ด๋ค
Last updated