(10๊ฐ) Generative Models 2
210813
Last updated
Was this helpful?
210813
Last updated
Was this helpful?
๋ง์ ์ฌ๋๋ค์ด Variational encoder๊ฐ generative model์ด๊ธฐ ๋๋ฌธ์ Autoencoder ์ญ์ gen model์ด๋ผ๊ณ ์๊ฐํ๋ค. ์ฌ์ค์ ๊ทธ๋ ์ง ์๋ค.
๊ทธ๋์ Variational autoencoder๊ฐ autoencoder๋ฅผ gen model์ด ๋๋๋ก ํ๊ฒ์ด ๋ฌด์์ธ์ง ์์๋ณด๋ ค๊ณ ํ๋ค
๋ชฉ์ ์ Posterior distribution์ ์ฐพ๋๋ฐ ์๋ค. Posterior distribution์ observation์ด ์ฃผ์ด์ก์ ๋ random variable์ ํ๋ฅ ๋ถํฌ์ด๋ค.
์ฌ๊ธฐ์ z๋ latent variable์ด๋ค.
p(x | z)์ ์ฐ๋ฆฌ๋ likelihood๋ผ๊ณ ํ๋ค.
์ผ๋ฐ์ ์ผ๋ก Posterior distribution์ ๊ณ์ฐํ๊ธฐ๊ฐ ํ๋ค๋ค. ๋ถ๊ฐ๋ฅํ ๋๋ ๋ง๋ค. ๊ทธ๋์ ์ด ๋ถํฌ์ ๊ฐ๊น๊ฒ ๊ทผ์ฌํ๊ฒ ๋ค๋๊ฒ์ด ๋ชฉ์ ์ด๊ณ , ๊ทธ ๋ถํฌ๊ฐ ๋ฐ๋ก Variational distribution ์ด๋ค.
์ฌ๊ธฐ์๋, KullbackโLeibler divergence ๋ผ๋๊ฒ์ ํ์ฉํด์ Variational distribution๊ณผ Posterior distribution๊ณผ์ ์ฐจ์ด๋ฅผ ์ค์ด๋ ค๊ณ ํ๋ค.
๋ฌธ์ ๊ฐ ๋ฌด์์ด๋๋ฉด, ์ ์ด์ P-dstb๋ ๋ชจ๋ฅด๋๋ฐ, V-dstb๋ฅผ ๊ตฌํ๋ ค๊ณ ํ๋ค๋ ๊ฒ. ๋ฌด์์ธ์ง๋ ๋ชจ๋ฅด๋ ๊ฒ๊ณผ ๊ฐ๊น์ด๊ฒ์ ๊ตฌํ๋ ค๋ ๊ฒ. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ด V-dstb์ ์๋ ELBO Trick์ด๋ค.
๋ชฉ์ ์ P-dstb์ V-dstb์ KL divergence๋ฅผ ์ค์ด๋ ๊ฒ์ด๋ค. ๊ทผ๋ฐ ์ด๊ฒ์ด ๋ถ๊ฐ๋ฅ. ๊ทธ๋์ ELBO, Evidence Low Bound ๋ผ๋๊ฒ์ ๊ณ์ฐํ๊ณ ์ฆ๊ฐ์ํด์ผ๋ก์จ ๋ชฉํํญ์ ๋ฎ์ถ๋ ค๊ณ ํ๋ค.
ELBO๋ ์์ ๊ฐ์ด ๋ ๊ฐ์ ํ ์ผ๋ก ๋๋๊ฒ ๋๋ค.
Reconstruction Term
encoder๋ฅผ ํตํด์ x๋ผ๋ ์ ๋ ฅ์ latent space๋ก ๋ณด๋๋ค๊ฐ ๋ค์ decoder๋ก ๋์์ค๋ ์ด reconstruction loss๋ฅผ ์ค์ด๋ ๋ถ๋ถ์ด๋ค.
Prior Fitting Term
latent space์ ์๋ ์ ๋ ฅ๋ค์ ๋ถํฌ๊ฐ ์ฌ์ ์ ์ ํด์ค ์ฌ์ ๋ถํฌ์ ๋น์ทํ๋๋ก ํ๋ ๋ถ๋ถ์ด๋ค.
์ด๊ฒ์ ์ ์ค๋ช ํด์ ๊ตฌํ๊น์ง ํ ๊ฒ์ธ Variational Auto-encoder๊ฐ gen model์ด ๋ ์ ์๋ค. ์๋ฐํ ์๋ฏธ์์ explicit ๋ชจ๋ธ์ ์๋๊ณ impulse ๋ชจ๋ธ.
Auto encoder๋ Encoder์ Decoder์ ๋ ํํธ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ์ ๋ ฅ์ ๋ํ ํน์ง์ ์ถ์ถํด์ Latent variables์ ๋ด๊ณ , ์ด ๋ณ์๋ก๋ถํฐ ๋ค์ ์ ๋ ฅ์ ๋ณตํธํ ํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
์ด ๋์ Latent variables๊ฐ ์๋ hidden space(=layer)๋ฅผ latent space๋ผ๊ณ ํ๋ค.
์๋๋ ์ธ์ฝ๋๋ฅผ ํตํด ์์ถ, ๋์ฝ๋๋ฅผ ํตํด ๋ณต์ํ๋ ์ญํ ์ ์ํํ๋ค.
์ฌ๊ธฐ์ ์ด Latent space๋ก ๋ฐ์ดํฐ๋ฅผ ์์ฑํด ๋ผ ์ ์์๊น? ๋ผ๋ ์ ์์ VAE(=Variational auto-encoder)๊ฐ ์ฃผ๋ชฉ์ ๋ฐ๋๋ค. ๋ฌธ์ ๋, ์ธ์ฝ๋์ ์ ๋ ฅ๋๋ ๋ฐ์ดํฐ X๊ฐ ๋๋ฌด ๋ง๊ณ ๊ณ ์ฐจ์์ด๋ผ๋ ๊ฒ. ๊ทธ๋์, ์ด X์ ๋ถํฌ๋ฅผ ๋ด๊ฐ ์๊ณ , ํํํ ์ ์๋ค๋ฉด ์๋ก์ด ๋ฐ์ดํฐ _X ๋ ์ถ์ ํ ์ ์์ง ์์๊น ๋ผ๋ ๊ณณ์์ ์์ํ๋ค.
๊ทธ๋์ ์ฐ๋ฆฌ๋ ์ด X์ ๋ถํฌ๋ฅผ ์์ํ๊ธฐ ์ํด ์์์ ๋ถํฌ๋ฅผ ๊ฐ์ ํ๊ณ ์ด ๋ถํฌ๋ฅผ X์ ๋ถํฌ์ ์ต๋ํ ๋น์ทํ๊ฒ ํ๋ ค๊ณ ํ๋ค. ์ฌ๊ธฐ์ KL Divergence ๊ฐ๋ ์ด ๋์จ๋ค.
KL Divergence๋ ๋ ํ๋ฅ ๋ถํฌ๊ฐ ์ผ๋ง๋ ๋ค๋ฅธ์ง๋ฅผ ํํํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ ๋ถํฌ๊ฐ ๊ฐ์ผ๋ฉด 0์ ๊ฐ์ ๊ฐ๊ณ ๋ ๋ถํฌ๊ฐ ๋ค๋ฅผ ์๋ก ๊ฐ์ด ์ปค์ง๋ค. ๊ทธ ์ธ์ ํน์ง์ ๋ค์๊ณผ ๊ฐ๋ค
ํญ์ 0์ด์์ ๊ฐ์ ๊ฐ์ง๋ค
๋น๊ตํ๋ ๋ ๋ถํฌ๊ฐ ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ฉด ๊ฐ๋ตํ๊ฒ ํํ์ด ๊ฐ๋ฅํ๋ค
๋ค์ ์๋ ์ด์ผ๊ธฐ๋ก ๋์๊ฐ๋ฉด, ์ฐ๋ฆฌ๊ฐ ๊ตฌํ๊ณ ์๋ ๋ฐ์ดํฐ X์ ๋ถํฌ์์ ์ ๊ฐํด๋ณด๋ ELBOํญ๊ณผ KLํญ์ผ๋ก ๋๋์ด์ง๋ค. ๊ทผ๋ฐ ์ฌ๊ธฐ์ KLํญ์ ๋ฐ๋์ ๋ ๋ถํฌ๋ฅผ ์์์ผ ๊ตฌํ ์ ์๋ ๊ฐ์ด๋ฏ๋ก ELBOํญ์ ๊ด์ฌ์ ๋๊ฒ ๋๋ค. ๊ทธ๋ฆฌ๊ณ , ๋ฐ์ดํฐ X์ ๋ถํฌ์์ ๊ณ ์ ๋ ๊ฐ์ด๋ฏ๋ก ELBO๊ฐ์ ์ต์ํ ์ํค๋ฉด ๋ฐ๋๋ก, KL๊ฐ์ด ์ต๋ํ ๋ ๊ฒ์ด๋ผ๊ณ ์์ํ๋ค.
๋ง์น 10 = 4 + 6 ์ธ๋ฐ, 10์ด ๊ณ ์ ๊ฐ์ด๋ผ์ 4๋ฅผ 1๋ก ๋ฐ๊พธ๋ฉด 6์ด 9๊ฐ ๋๋ ์๋ฆฌ
๋ค์, ๋ณธ๋ฌธ์ผ๋ก ๋์๊ฐ์ AE๊ฐ ์ Gen ๋ชจ๋ธ์ด ๋ ์๊ฐ ์์๋ ์๊ฐํด๋ณด๋ฉด, VAE๋ latent space๋ฅผ ๊ฐ์ง๊ณ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋๋ฐ๋นํด AE๋ ๋จ์ง ์ ๋ ฅ์ด latent space๋ฅผ ๊ฑฐ์ณ์ ์ถ๋ ฅ์ผ๋ก ๋์ฌ๋ฟ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
VAE๋ explicitํ ๋ชจ๋ธ์ด ์๋๊ธฐ ๋๋ฌธ์ likelihood๋ฅผ ๊ตฌํ๊ธฐ ์ด๋ ต๋ค. ๊ทธ๋์ interactable ๋ชจ๋ธ์ด๋ผ๊ณ ๋ถ๋ฆฐ๋ค
KLํญ์ ๋ฐ๋์ ๋ฏธ๋ถ์ด ๊ฐ๋ฅํด์ผ ํ๋ค. ๊ทธ๋ ์ง ์์ผ๋ฉด ํ์๊ฐ ์์. ๊ทธ๋์ ๋ฏธ๋ถ์ด ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ์ํด VAE๋ ์ฃผ๋ก ๊ฐ์ฐ์์์ ์ฌ์ฉํ๋ค.
๊ทธ๋์ ๋๋ถ๋ถ isotropic Gaussian์ ์ฌ์ฉํ๋ค.
์ด๋ ๋ชจ๋ ์์ํ์ด ๋ ๋ฆฝ์ ์ธ ๊ฐ์ฐ์์์ ์๋ฏธํ๋ค.
๊ทธ๋์ ๊ฐ์ฐ์์์ ์ฌ์ฉํ๋ฉด ๋ค์๊ณผ ๊ฐ์ด ์ด์ ๊ผด์ด ๋์ค๊ฒ ๋๋ค.
VAE์ ๊ฐ์ฅ ํฐ ๋จ์ ์ ์ธ์ฝ๋ฉ์ ํ์ฉํ ๋ KL์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ด๋ค. ๊ฒฐ๊ตญ ๊ฐ์ฐ์์ ๋ถํฌ๊ฐ ์๋ ๊ฒฝ์ฐ๋ ํ ์ ์๋ค๋ ๊ฒ.
์ด ๋๋ GAN์ ํ์ฉํด์ latent distribution ์ฌ์ด์ ๋ถํฌ๋ฅผ ๋ง์ถฐ์ฃผ๋ํด AAE๋ฅผ ์ฌ์ฉํ๋ค.
GAN์ ์ฅ์ ์ ์ด๋ ํ Fixed Discriminator์ ์ํด ํ์ต์ด ์งํ๋๋ ๊ฒ์ด ์๋๋ผ Discriminator์ Generator๊ฐ ์๋ก ์ํฅ์ ์ฃผ๋ฉฐ ํ์ต์ด ์งํ๋๋ ๊ฒ
GAN์ explicit ๋ชจ๋ธ์ด๋ค ใ __ใ
ํ์ชฝ์ ๋์ด๊ณ ์ถ์ดํ๊ณ ํ์ชฝ์ ๋ฎ์ถ๊ณ ์ถ์ดํ๋ minimax game๊ณผ ๊ฐ๋ค
discriminator์ ์ ์ฅ์์๋ ๋ค์๊ณผ ๊ฐ๋ค
์ด ๊ฐ์ ํญ์ ์ต๋ํ ์ํค๋ D๋ ๋ค์๊ณผ ๊ฐ๋ค. (generator๊ฐ fix ๋์๋ค๊ณ ๊ฐ์ )
๋ฐ๋๋ก, generator ์ ์ฅ์์๋ ๋ค์๊ณผ ๊ฐ๋ค
๊ทธ๋ฆฌ๊ณ ์ด ๊ฐ์ ํญ์ ์ต์ํ ์ํค๋ G๋ ๋ค์๊ณผ ๊ฐ๋ค (discriminator๊ฐ fix ๋์๋ค๋ ๊ฐ์ )
์ด๋ฏธ์ง ๋๋ฉ์ธ์ผ๋ก ํ์ฉํ GAN์ด Dense Convolution GAN
z๋ผ๋ ๊ฒ์ ํตํด์ ๋งค๋ฒ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ฒ์ด ์๋๋ผ c๋ผ๋ ๋ณด์กฐ์ ํด๋์ค๋ฅผ ์ด์ฉํ์ฌ generate๋ฅผ ํ ๋ GAN์ด ํน์ ๋ชจ๋์ ์ง์คํ ์ ์๊ฒ ํด์ค๋ค
ํน์ ๋ชจ๋๋ผ๊ณ ํจ์, ์์ ํตํด Conditional Vector์ ์ง์คํ ์ ์๊ฒํ๋ค.
DALL-E ์ฒ๋ผ ๋ฌธ์ฅ์ ์ ๋ ฅํ๋ฉด ์ด๋ฏธ์ง๋ฅผ ์ถ๋ ฅ
์ด ๋ชจ๋ธ์ด ๋จผ์ ์
์ด๋ฏธ์ง์ ๋ถ๋ถ์ ์ ๋ ฅํ๋ฉด ์๋ณธ์ ์์ฑ์์ผ์ฃผ๋ ๋ชจ๋ธ
์ด๋ฏธ์ง ์ฌ์ด์ ๋๋ฉ์ธ์ ๋ฐ๊ฟ ์ ์๋ ๋ชจ๋ธ
EX) ๋ง์ ์ผ๋ฃฉ๋ง๋ก ๋ง๋ฌ
๋ณดํต์ ์ด๋ฐ๊ฑธ ๊ฐ๋ฅํ๊ฒ ํ๋ ค๋ฉด ๋์ผ ๋ฐฐ๊ฒฝ์ ๋ง ์ฌ์ง ํ๋์ ์ผ๋ฃฉ๋ง ์ฌ์ง์ด ํ๋ ํ์ํ๋ฐ, ๊ทธ๋ฐ๊ฒ ์์ด ๋ง์ฌ์ง ์๋ฉ ๊ทธ๋ฆฌ๊ณ ์ผ๋ฃฉ๋ง ์ฌ์ง ์๋ฉ ํ์ตํด์ ํ ์ ์๋ค
๋จ์ํ ์ด๋ฏธ์ง์ ๋๋ฉ์ธ์ ๋ฐ๊พธ๋ ๋๋์ด ์๋๋ผ, ์ด๋ฏธ์ง์ ๋๋ฉ์ธ์ ์ธ๋ถ์ ์ผ๋ก ์ ํํ ์ ์๊ฒํ๋ ๋ชจ๋ธ
4x4๋ถํฐ 1024x1024๊น์ง ๋จ๊ณ์ ์ผ๋ก ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ฉด์ ์ ์ฐจ์ ์ด๋ฏธ์ง๋ถํฐ ๊ณ ์ฐจ์ ์ด๋ฏธ์ง๋ฅผ ํ์ต์ํจ๋ค.
์ดํด๊ฐ ์๋๊ฒ์ด ๋ปํ๋ ๋ฅผ ํตํด ๋ด๊ฐ ์ดํดํ ๊ฒ์ ์ ๋ฆฌํด๋ณด๋ฉด,
๊ณ์ฐ ์์์ ๋ฐ๋ผ ๊ฐ์ด ๋ค๋ฅด๋ค :