9 Tue
[ํ์ด์ฌ ๋ฅ๋ฌ๋ ํ์ดํ ์น] PART 04 Computer Vision
01 CNN
Region Feature
์ ๊ฒฝ๋ง์ Input ๋ณ์๋ ๋ ๋ฆฝ์ ์ด์ด์ผ ํ๋๋ฐ ์ด๋ฏธ์ง๋ ์ฃผ๋ณ ํฝ์ ๊ณผ์ ์ง์ญ์ฑ ๋๋ฌธ์ ๋ ๋ฆฝ์ ์ด์ง ๋ชปํ๋ค
์ด๋ฅผ Flattenํด์ ์ฌ์ฉํ๋ฉด ์ฃผ๋ณ ํฝ์ ๊ณผ์ ๊ด๋ จ์ฑ์ ์ ์ ์์๊ณ ๋ฐ๋ผ์ ์ด๋ฌํ ์ง์ญ ์ ๋ณด๋ฅผ ํ์ตํ ์ ์๋ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๊ฐ ํ์ํ๋ค => ์ด๊ฒ์ด CNN
graphical feature ์ด๋ผ๊ณ ๋ ํจ
CNN
Region Feature๋ฅผ ๋ฝ์๋ด๋ Convolution Layer์ Feature Dimension์ ์ํ Pooling Layer์ ์ต์ข ์ ์ธ ๋ถ๋ฅ๋ฅผ ์ํ Fully Connected Layer๋ก ์ด๋ฃจ์ด์ ธ์๋ค
Convolution Layer
Receptive Field๋ฅผ ์ ์ํด ์ ๋ ฅ ์ธต์ ์ด๋ฏธ์ง์ Feature๋ฅผ ์ถ์ถ
Input์ด 20 x 20 ์ด๊ณ rec. field๊ฐ 3 x 3 ์ด๋ฉด feature๋ 18 x 18์ด๋ค. ์ด ๋ ์ถ์ถํ feature๋ฅผ feature map ์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
stride๋ rec. field๊ฐ feature๋ฅผ ๋ฝ์ ๋ input ์ด๋ฏธ์ง ์์์ ์ด๋ํ๋ ์นธ์
padding์ feature์ ํฌ๊ธฐ๊ฐ ์๋ณธ ์ด๋ฏธ์ง์ ํฌ๊ธฐ์ ๋์ผํ ์ ์๋๋ก ์ถ๊ฐํ๋ ๊ธฐ๋ฒ
weight sharing์ rec. field๊ฐ ์ด๋ฏธ์ง์์ ํน์ง์ ์ถ์ถํ ๋ ์ฌ์ฉํ๋ ๊ฐ์ค์น๋ฅผ ๋ชจ๋ ๋์ผํ ๊ฐ์ค์น๋ก ์ฌ์ฉํ๋๋ก ํ๋ ๊ธฐ๋ฒ => ๊ทธ๋ ์ง ์์ผ๋ฉด ํ๋ผ๋ฏธํฐ์ ์๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํจ
Pooling Layer
Feature size๋ฅผ ๋ฐ์ผ๋ก ์ค์ฌ์ฃผ๋ ๊ฒ ( 2 x2 stride max pooling ๊ธฐ์ค)
CNN์ ํ์ต ์๋๋ฅผ ํฅ์์ํค๊ธฐ ์ํด Feature์ Dimension์ ์ค์ด๋ ๊ฐ๋ . => ์ ๋ณด ์์ค์ด ๋ฐ์ => ์ต๊ทผ์๋ ํ๋ง์ด ์ ์์ฐ์ด๋ ์ถ์ธ. ๋ ๋ง์ ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ํด์ ๊ทธ๋ฆฌ๊ณ ํ์ต ์๋๋ฅผ ๋์ผ ์ ์๋ ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ์
์ฌ๊ฐํ ์์ ์ต๋ ํฝ์ ๊ฐ์ ๋ฝ์ผ๋ฉด Max Pooling, ํ๊ท ํฝ์ ๊ฐ์ ๋ฝ์ผ๋ฉด Average Pooling
Fully Connected Layer
MLP ๊ตฌ์กฐ์ ๋์ผ
Feature๋ฅผ Flatten์์ผ MLP์ Input์ผ๋ก ๋๊ณ ํ์ต์ ์งํ
02 CNN & MLP
MLP๋ ์ด๋ฏธ์ง์ ํฝ์ ๊ฐ์ ๋ฐ๋ก Input์ผ๋ก ์ฌ์ฉํ๋๋ฐ ๋นํด CNN์ Convolution๊ณผ Pooling์ ๊ฑฐ์น Feature๋ฅผ Input์ผ๋ก ์ฌ์ฉํ๋ค.
์ปฌ๋ฌ ์ด๋ฏธ์ง๋ฅผ ์คํ์ฉ ๋ฐ์ดํฐ๋ก ์ธ ๋๋ CIFAR-10๊ณผ ImageNet์ด ์์ง๋ง ํ์๋ ๋์ ์์ค์ ์ปดํจํ ํ์๊ฐ ํ์ํด ์ ์๋ฅผ ์ฃผ๋ก ์ฌ์ฉํ๋ค.
์ต์ข ์ ์ผ๋ก 47%์ ์ ํ๋๋ฅผ ๊ฐ์ก๋ค. ์ด๋ ํ๋ฐฑ ์๊ธ์จ์ 90%์ ์ ํ๋ ์์ค๊ณผ๋ ์ฐจ์ด๊ฐ ์๋ค. ๋์ผํ MLP ์ธ๋ฐ๋ ๋ง์ด๋ค. ์ฐจ์ด๊ฐ ๋๋ ์ด์ ๋ ํ๋ฐฑ๊ณผ ์ปฌ๋ฌ์ ์๋ค. ํ๋ฐฑ ๋ฐ์ดํฐ๋ MLP์ Input์ ์ ๋ ฅํ ๋ 1์ฐจ์์ผ๋ก ํด๋ ์ด๋ฏธ์ง์ ํน์ง์ ๋ ๋ฏผ๊ฐํ๊ฒ ์ฌ๋ผ์ง์ง๋ง(์ ์ฌ๋ผ์ง์ง ์๋๋ค) ์ปฌ๋ฌ ๋ฐ์ดํฐ๋ ์ด๋ฏธ์ง์ ํน์ง์ ์์ด๋ฒ๋ฆฌ๋ ๊ฒ์ ๋ฏผ๊ฐํ๊ธฐ ๋๋ฌธ.
CNN์ผ๋ก ํ๋๋ 62%๋ก ์ฑ๋ฅ ํฅ์!
Last updated
Was this helpful?