(09๊ฐ•) Generative Models 1

210813

Introduction

Generative model์„ ๋งŒ๋“ ๋‹ค, ํ•™์Šตํ•œ๋‹ค๋ผ๋Š” ๊ฒƒ์€?

  • ๊ทธ๋Ÿด๋“ฏํ•œ ์ด๋ฏธ์ง€๋‚˜ ๋ฌธ์žฅ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด๋ผ๊ณ  ๋ณดํ†ต ์ƒ๊ฐํ•œ๋‹ค

  • ๊ทธ๋Ÿฌ๋‚˜, ๋‹จ์ˆœํžˆ "์ƒ์„ฑ"์˜ ์˜๋ฏธ๋งŒ์„ ๊ฐ€์ง€๋Š” ๊ฒƒ์ด gen model์˜ ์ „๋ถ€๋Š” ์•„๋‹ˆ๋‹ค. ๊ทธ๊ฒƒ๋ณด๋‹ค ๋” ๋งŽ์€ ๊ฐœ๋…์„ ํฌํ•จํ•œ๋‹ค

  • Generation : ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์— ์—†๋Š” ๊ฐ•์•„์ง€ ์‚ฌ์ง„์„ ๋งŒ๋“œ๋Š” ๊ฒƒ๋„ gen์ด ํ• ์ˆ˜์žˆ๋Š” ์ผ.

  • Density estimation : ๊ฐ•์•„์ง€ ๊ฐ™์€์ง€ ์•„๋‹Œ์ง€ ๊ตฌ๋ณ„ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ

    • ๋งˆ์น˜ ๋ถ„๋ฅ˜๋ชจ๋ธ๊ณผ ๊ฐ™๋‹ค.

์–ด๋–ค ๋ชจ๋ธ์ด Generative model์ด๋ผ๊ณ  ํ•˜๋ฉด, ๊ทธ ๋ชจ๋ธ์€ ๋‹จ์ˆœํžˆ generation ํ•˜๋Š” ๋Šฅ๋ ฅ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ๊นŒ์ง€ ํฌํ•จํ•œ๋‹ค.

  • explicit model์— ์†ํ•œ๋‹ค. ์ž…๋ ฅ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ์ž…๋ ฅ์— ๋Œ€ํ•œ ํ™•๋ฅ ๊ฐ’์„ ์–ป์–ด๋‚ผ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์„ ๋œปํ•œ๋‹ค.

  • feature learning : gen model์€ unsupervised learning๋„ ๊ฐ€๋Šฅํ•˜๋‹ค๊ณ  ์ด์•ผ๊ธฐ ํ•œ๋‹ค.

Basic Discrete Distributions

์˜ˆ๋ฅผ ํ•œ๋ฒˆ ๋“ค์–ด๋ณด์ž

ํ•œ ํ”ฝ์…€๋‹น ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒ‰์€ ๋ช‡๊ฐ€์ง€์ผ๊นŒ?

  • 256 * 256 * 256

๊ทธ๋ ‡๋‹ค๋ฉด ์ƒ‰์„ ์ •์˜ํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋Š” ๋ช‡๊ฐœ์ผ๊นŒ?

๋ฐ”์ด๋„ˆ๋ฆฌ ์ด๋ฏธ์ง€(ํ‘๋ฐฑ ์ด๋ฏธ์ง€)์—์„œ ํ”ฝ์…€์ด n๊ฐœ๋ผ๋ฉด ๋งŒ๋“ค ์ˆ˜ ์žˆ๋Š” ์ด๋ฏธ์ง€์˜ ๊ฒฝ์šฐ์˜ ์ˆ˜๋Š” ๋ช‡๊ฐœ์ผ๊นŒ?

  • 2n 2^n

๊ทธ๋ ‡๋‹ค๋ฉด ์ฐจ์›์ด n์ธ ๋ฒกํ„ฐ X๊ฐ€ n๊ฐœ ์žˆ๋‹ค๊ณ  ํ–ˆ์„ ๋•Œ, ์ด ๋ฒกํ„ฐ๋ฅผ ์ •์˜ํ•˜๋ ค๋ฉด ํ•„์š”ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋Š” ๋ช‡๊ฐœ์ผ๊นŒ?

  • 2nโˆ’1 2^n -1

์—ฌ๊ธฐ์„œ, ์š”์ง€๋Š” n๊ฐœ์˜ ํ”ฝ์…€์„ ๊ตฌ์„ฑํ•  ๋•Œ ์กฐ๊ธˆ ๋” ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†์„๊นŒ? ๋ผ๋Š” ๊ฒƒ. ๊ทธ๋ž˜์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฐ€์ •์„ ๋‘”๋‹ค. ํ”ฝ์…€๋“ค์€ ์„œ๋กœ "Independent" ํ•˜๋‹ค.

  • ํ˜„์žฌ ํ”ฝ์…€์ด ์ฃผ๋ณ€ ํ”ฝ์…€์—๊ฒŒ ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š๊ณ , ์˜ํ–ฅ์„ ๋ฐ›์ง€์•Š๋Š”๋‹ค๋Š” ๋œป์œผ๋กœ ํ•ด์„ํ•˜๋ฉด ๋œ๋‹ค.

๊ทธ๋ ‡๊ฒŒ ๋˜๋ฉด ๊ฒฝ์šฐ์˜ ์ˆ˜๋Š” ๋˜‘๊ฐ™์ง€๋งŒ ํ•„์š”ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋Š” n๊ฐœ๋งŒ ์žˆ์œผ๋ฉด ๋œ๋‹ค.

  • ๊ฐ๊ฐ์˜ ํ”ฝ์…€์€ ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋ฏ€๋กœ ํ•„์š”ํ•œ ๋ชจ์ˆ˜๋Š” ํ™•๋ฅ  p ํ•˜๋‚˜์ด๋‹ค. ๋˜ ํ™•๋ฅ  p(x1, ... xn)์—์„œ ๊ฐ๊ฐ์˜ x๋Š” ๋…๋ฆฝ์ด๋ฏ€๋กœ joint distribution์ด ๊ฐ€๋Šฅํ•ด์„œ ๊ฐ๊ฐ์˜ ํ™•๋ฅ ๊ณฑ p(x1)p(x2)...p(xn) ์œผ๋กœ ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ๋”ฐ๋ผ์„œ ํ•„์š”ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐœ์ˆ˜๋Š” n์ด๋‹ค.

  • ๊ทธ๋Ÿฌ๋‚˜ ์ด๊ฑด ์–ด๋””๊นŒ์ง€๋‚˜ Independent Assumption์ด ์ž‘์šฉํ–ˆ์„ ๋•Œ์˜ ์ด์•ผ๊ธฐ

Fully Dependentํ•˜๋ฉด ํŒŒ๋ผ๋ฏธํ„ฐ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ๋งŽ๊ณ , Independent ํ•˜์ž๋‹ˆ ํŒŒ๋ผ๋ฏธํ„ฐ์ˆ˜๋Š” ์ค„์–ด๋“ค์–ด์„œ ์ข‹์ง€๋งŒ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ์ด๋ฏธ์ง€๊ฐ€ ์ ์–ด์ง€๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ ์ค‘๊ฐ„์ฏค์„ ์ฐพ๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ

๊ทธ๋ž˜์„œ Conditional Independence ๋ฅผ ์‚ฌ์šฉํ•˜๊ฒŒ๋œ๋‹ค.

Conditional Independence

๊ธฐ๋ณธ์ ์œผ๋กœ ์“ฐ๋Š” ์—ฐ์‡„๋ฒ•์น™์ด๋‹ค. x์˜ ๋…๋ฆฝ/์ข…์†์— ๊ด€๊ณ„์—์„œ ํ•ญ์ƒ ๋งŒ์กฑํ•œ๋‹ค

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ํ•ญ์ƒ ๋งŒ์กฑํ•˜๋Š” ๋ฒ•์น™

์ด๋Š” ํ•ญ์ƒ ๋งŒ์กฑํ•˜์ง€๋Š” ์•Š๋‹ค. z๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ x์™€ y๊ฐ€ independent ํ•˜๋‹ค๋ฉด ๋งŒ์กฑํ•œ๋‹ค.

์ฒด์ธ๋ฃฐ์„ ์‚ฌ์šฉํ•  ๋•Œ ํ•„์š”ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐœ์ˆ˜๋Š” ๋ช‡๊ฐœ์ผ๊นŒ?

๋‚œ ์ด๋ถ€๋ถ„์ด ์ดํ•ด๊ฐ€ ์ž˜ ์•ˆ๊ฐ”๋‹ค๊ฐ€ ์งˆ๋ฌธํ•˜๊ณ  ๊ณ ๋ฏผํ•˜๊ณ  ํ•œ ๋์— ์ดํ•ดํ–ˆ๋‹ค

์ข…์†์ : p(x2|x1)์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋‘๊ฐ€์ง€๋กœ ํ‘œํ˜„ ๊ฐ€๋Šฅ p(x2|x1=1)๊ณผ p(x2|x1=0)

  • p(x2|x1=1) ์—์„œ ํ•„์š”ํ•œ x2๋ฅผ ๊ฒฐ์ •ํ•˜๋Š”ํ™•๋ฅ  q1

  • p(x2|x1=0) ์—์„œ ํ•„์š”ํ•œ x2๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ํ™•๋ฅ  q2

์ด ๋•Œ ํ™•๋ฅ  q1๊ณผ q2๊ฐ€ ํ•„์š”ํ•˜๋ฏ€๋กœ ์ข…์†์ ์ผ ๋•Œ๋Š” ์„ธ ๊ฐœ(p, q1, q2)์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ํ•„์š”(2^n-1๊ฐœ)

  • ๋งŒ์•ฝ q1 = q2๊ฐ€ ๊ฐ™๋‹ค๋ฉด x1์ด ๋ญ๋“ ๊ฐ„์— x2์˜ ํ™•๋ฅ ์ด ๊ฐ™๋‹ค๋Š” ๊ฒƒ์ด๋ฏ€๋ฅด ์ข…์†์ด๋ผ๋Š” ๊ฐ€์ •์— ์œ„๋ฐฐ

๋…๋ฆฝ์ : p(x2|x1) = p(x2) ์ด๋ฏ€๋กœ x2๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ํ™•๋ฅ  q ๋”ฐ๋ผ์„œ, ๋…๋ฆฝ์ ์ผ ๋•Œ๋Š” ๋‘ ๊ฐœ(p, q)์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ํ•„์š”(n๊ฐœ)

์ด์ œ Markov assumption์ด๋ผ๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž. ๊ทธ๋Ÿผ ํ™•๋ฅ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ์ด๋Š” ํ˜„์žฌ ๋ฐ์ดํ„ฐ๋Š” ๊ฐ€์žฅ ์ตœ๊ทผ์— ๋ฐ์ดํ„ฐ ํ•˜๋‚˜์—๋งŒ ์˜์กด์ ์ด๋ผ๋Š” ๊ฒƒ(=์˜ํ–ฅ์„ ๋ฐ›๋Š”๋‹ค)

ํ•„์š”ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค

  • x1์€ ํ•œ๊ฐœ๊ฐ€ ํ•„์š”ํ•˜๊ณ  ๊ทธ ๋’ค๋ถ€ํ„ฐ๋Š” 2๊ฐœ์”ฉ ํ•„์š”ํ•˜๋ฏ€๋กœ

์ž˜๋ณด๋ฉด ์ฒ˜์Œ์— Fully Independent ํ•  ๋•Œ๋Š” 2n 2^n ๊ฐœ์ด๊ณ  Markov assumption์„ ์ ์šฉํ•˜๋‹ˆ ์ง€์ˆ˜๊ฐ€ ํ•œ ์ฐจ์› ๋‚ด๋ ค๊ฐ„ 2nโˆ’1 2n-1 ๊ทธ๋ฆฌ๊ณ  ์™„์ „ ๋…๋ฆฝ์ผ ๋•Œ๋Š” n n ๊ฐœ์ด๋‹ค.

๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๊ฐ€ ์กฐ๊ฑด์„ ์–ด๋–ป๊ฒŒ ์ •ํ•ด์ฃผ๋ƒ์— ๋”ฐ๋ผ์„œ ํ•„์š”ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ๋‹ฌ๋ผ์ง€๋ฉฐ ๋…๋ฆฝ์— ๊ฐ€๊นŒ์šธ ์ˆ˜๋ก ์ ์–ด์ง€๊ณ  ์ข…์†์— ๊ฐ€๊นŒ์šธ ์ˆ˜๋ก ๋งŽ์•„์ง„๋‹ค.

์ด๋ ‡๊ฒŒ conditional independency๋ฅผ ์ž˜ ํ™œ์šฉํ•˜๋Š” ๋ชจ๋ธ์„ Auto-regressive Model ์ด๋ผ๊ณ  ํ•œ๋‹ค.

Auto-regressive Model

์œ„์™€ ๊ฐ™์ด MNIST 28*28 ๋ฐ”์ด๋„ˆ๋ฆฌ ์ด๋ฏธ์ง€๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•˜์ž. ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๋Š” p(xi)๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ.(i๋Š” 1๋ถ€ํ„ฐ 784) ์ด ๋•Œ p(x)๋ฅผ ์–ด๋–ป๊ฒŒ ์ •์˜ํ• ๊นŒ?

๋ฐ”๋กœ, ์—ฐ์‡„๋ฒ•์น™์„ ์‚ฌ์šฉํ•ด์„œ ๊ฒฐํ•ฉ ๋ถ„ํฌ๋กœ ๋ณ€๊ฒฝํ•˜๋Š” ๊ฒƒ. ์ด ๋•Œ ์—ฌ๋Ÿฌ ์กฐ๊ฑด์„ ์„ค์ •ํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ํ˜„์žฌ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ฐ”๋กœ ์ „ ๋ฐ์ดํ„ฐ์—๋งŒ ์˜ํ–ฅ์„ ๋ฐ›๋“ , ํ˜„์žฌ ๋ฐ์ดํ„ฐ๊ฐ€ ์ฒซ ๋ฐ์ด๋”๋ถ€ํ„ฐ ๋ฐ”๋กœ ์ „ ๋ฐ์ดํ„ฐ๊นŒ์ง€์— ์˜ํ–ฅ์„ ๋ฐ›๋“  ๋ชจ๋‘ Auto-regressive Model์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

์ˆซ์ž๋“ , ๋ฌธ์ž๋“ , ์ด๋ฏธ์ง€๋“  ์ˆœ์„œ๋ฅผ ์ •ํ•ด์ฃผ๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค.

  • ์ด๋ฏธ์ง€์˜ ์ˆœ์„œ๋ฅผ ์ •ํ•ด์ฃผ๋Š” ๊ฒƒ์€ ์• ๋งคํ•˜๋‹ค. ๊ฐ€๋กœ๋กœ ํ•œ์ค„๋กœ ๋‚˜์—ดํ•  ์ˆ˜๋„ ์žˆ๊ณ , ์ง€๊ทธ์žฌ๊ทธ๋กœ ์ˆœ์„œ๋ฅผ ์ •ํ•  ์ˆ˜๋„ ์žˆ๋‹ค. ์ด์— ๋”ฐ๋ผ ์„ฑ๋Šฅ๋„ ๋‹ฌ๋ผ์งˆ ๊ฒƒ์ด๊ณ  ๋ฐฉ๋ฒ•๋ก ๋„ ๋‹ฌ๋ผ์งˆ ๊ฒƒ์ด๋‹ค.

Auto-reg๊ฐ€ ๋ฐ์ดํ„ฐ 1๊ฐœ๋งŒ์„ ๊ณ ๋ คํ•  ๋•Œ AR-1 ๋ชจ๋ธ์ด๋ผ๊ณ  ํ•˜๋ฉฐ n๊ฐœ๋ฅผ ๊ณ ๋ คํ•  ๋•Œ๋Š” AR-n ๋ชจ๋ธ์ด๋ผ๊ณ  ํ•œ๋‹ค

NADE: Neural Autoregressive Density Estimator

๊ฐ ๋ฐ์ดํ„ฐ์…‹์˜ ์ˆœ์„œ์˜ ์‹ ๊ฒฝ๋ง์€ ์ด์ „ ๋ฐ์ดํ„ฐ์…‹์„ ์ž…๋ ฅ๋ฐ›์œผ๋ฏ€๋กœ ๋ช…ํ™•ํžˆ Autoreg ๋ชจ๋ธ์ด๋‹ค. ๊ฐ ์‹ ๊ฒฝ๋ง์€ ์ ์  ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ์ฐจ์›์ด ์ปค์ง€๊ฒŒ๋˜๊ณ  ์ด์— ๋”ฐ๋ผ ๊ฐ€์ค‘์น˜์˜ ํฌ๊ธฐ๋„ ์ปค์ง€๊ฒŒ ๋œ๋‹ค.

์ด ๋ชจ๋ธ์˜ ํ™•๋ฅ ๋ถ„ํฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

impulse ๋ชจ๋ธ์€ generating๋งŒ ํ•  ์ˆ˜์žˆ๋Š”๋ฐ ๋ฐ˜ํ•ด explicit ๋ชจ๋ธ์„ generate์™€ classify๋ฅผ ๋‘˜ ๋‹ค ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋˜, ๋งŒ์•ฝ์— ์—ฐ์†ํ™•๋ฅ ๋ถ„ํฌ์ผ๊ฒฝ์šฐ ๊ฐ€์šฐ์‹œ์•ˆ ํ˜ผํ•ฉ๋ชจ๋ธ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.

Pixel RNN

RNN์„ ์‚ฌ์šฉํ•ด์„œ ํ”ฝ์…€์„ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ

autoreg ๋ชจ๋ธ์€ FC๋ฅผ ๊ฑฐ์ณ์„œ ๋งŒ๋“ค์–ด์ง€๋Š”๋ฐ, pixel rnn์€ recurrent๋ฅผ ํ†ตํ•ด generation์ด ์ด๋ฃจ์–ด์ง„๋‹ค.

๋˜, ์ด ๋•Œ ordering ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋”ฐ๋ผ ๋‘ ๊ฐ€์ง€ ๋ฐฉ๋ฒ•์ด ์ƒ๊ธฐ๋Š”๋ฐ

Row LSTM์€ ์ž์‹ ๋ณด๋‹ค ์œ„์ชฝ์— ์žˆ๋Š” ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๊ฒ ๋‹ค๋Š” ๊ฒƒ์ด๊ณ  Diagonal BiLSTM์€ ์ž์‹ ๋ณด๋‹ค ์ด์ „์— ์žˆ๋Š” ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๊ฒ ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค

Last updated