9 Tue

[ํŒŒ์ด์ฌ ๋”ฅ๋Ÿฌ๋‹ ํŒŒ์ดํ† ์น˜] PART 04 Computer Vision

01 CNN

Region Feature

  • ์‹ ๊ฒฝ๋ง์˜ Input ๋ณ€์ˆ˜๋Š” ๋…๋ฆฝ์ ์ด์–ด์•ผ ํ•˜๋Š”๋ฐ ์ด๋ฏธ์ง€๋Š” ์ฃผ๋ณ€ ํ”ฝ์…€๊ณผ์˜ ์ง€์—ญ์„ฑ ๋•Œ๋ฌธ์— ๋…๋ฆฝ์ ์ด์ง€ ๋ชปํ•˜๋‹ค

  • ์ด๋ฅผ Flattenํ•ด์„œ ์‚ฌ์šฉํ•˜๋ฉด ์ฃผ๋ณ€ ํ”ฝ์…€๊ณผ์˜ ๊ด€๋ จ์„ฑ์„ ์•Œ ์ˆ˜ ์—†์—ˆ๊ณ  ๋”ฐ๋ผ์„œ ์ด๋Ÿฌํ•œ ์ง€์—ญ ์ •๋ณด๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ๊ฐ€ ํ•„์š”ํ–ˆ๋‹ค => ์ด๊ฒƒ์ด CNN

  • graphical feature ์ด๋ผ๊ณ ๋„ ํ•จ

CNN

  • Region Feature๋ฅผ ๋ฝ‘์•„๋‚ด๋Š” Convolution Layer์™€ Feature Dimension์„ ์œ„ํ•œ Pooling Layer์™€ ์ตœ์ข…์ ์ธ ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•œ Fully Connected Layer๋กœ ์ด๋ฃจ์–ด์ ธ์žˆ๋‹ค

  • Convolution Layer

    • Receptive Field๋ฅผ ์ •์˜ํ•ด ์ž…๋ ฅ ์ธต์˜ ์ด๋ฏธ์ง€์˜ Feature๋ฅผ ์ถ”์ถœ

    • Input์ด 20 x 20 ์ด๊ณ  rec. field๊ฐ€ 3 x 3 ์ด๋ฉด feature๋Š” 18 x 18์ด๋‹ค. ์ด ๋•Œ ์ถ”์ถœํ•œ feature๋ฅผ feature map ์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.

    • stride๋Š” rec. field๊ฐ€ feature๋ฅผ ๋ฝ‘์„ ๋•Œ input ์ด๋ฏธ์ง€ ์œ„์—์„œ ์ด๋™ํ•˜๋Š” ์นธ์ˆ˜

    • padding์€ feature์˜ ํฌ๊ธฐ๊ฐ€ ์›๋ณธ ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ์™€ ๋™์ผํ•  ์ˆ˜ ์žˆ๋„๋ก ์ถ”๊ฐ€ํ•˜๋Š” ๊ธฐ๋ฒ•

    • weight sharing์€ rec. field๊ฐ€ ์ด๋ฏธ์ง€์—์„œ ํŠน์ง•์„ ์ถ”์ถœํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ๊ฐ€์ค‘์น˜๋ฅผ ๋ชจ๋‘ ๋™์ผํ•œ ๊ฐ€์ค‘์น˜๋กœ ์‚ฌ์šฉํ•˜๋„๋ก ํ•˜๋Š” ๊ธฐ๋ฒ• => ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ˆ˜๊ฐ€ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•จ

  • Pooling Layer

    • Feature size๋ฅผ ๋ฐ˜์œผ๋กœ ์ค„์—ฌ์ฃผ๋Š” ๊ฒƒ ( 2 x2 stride max pooling ๊ธฐ์ค€)

    • CNN์˜ ํ•™์Šต ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด Feature์˜ Dimension์„ ์ค„์ด๋Š” ๊ฐœ๋…. => ์ •๋ณด ์†์‹ค์ด ๋ฐœ์ƒ => ์ตœ๊ทผ์—๋Š” ํ’€๋ง์ด ์ž˜ ์•ˆ์“ฐ์ด๋Š” ์ถ”์„ธ. ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด์„œ ๊ทธ๋ฆฌ๊ณ  ํ•™์Šต ์†๋„๋ฅผ ๋†’์ผ ์ˆ˜ ์žˆ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋ฐœ์ „

    • ์‚ฌ๊ฐํ˜• ์•ˆ์˜ ์ตœ๋Œ€ ํ”ฝ์…€ ๊ฐ’์„ ๋ฝ‘์œผ๋ฉด Max Pooling, ํ‰๊ท  ํ”ฝ์…€ ๊ฐ’์„ ๋ฝ‘์œผ๋ฉด Average Pooling

  • Fully Connected Layer

    • MLP ๊ตฌ์กฐ์™€ ๋™์ผ

    • Feature๋ฅผ Flatten์‹œ์ผœ MLP์˜ Input์œผ๋กœ ๋†“๊ณ  ํ•™์Šต์„ ์ง„ํ–‰

02 CNN & MLP

MLP๋Š” ์ด๋ฏธ์ง€์˜ ํ”ฝ์…€ ๊ฐ’์„ ๋ฐ”๋กœ Input์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š”๋ฐ ๋น„ํ•ด CNN์€ Convolution๊ณผ Pooling์„ ๊ฑฐ์นœ Feature๋ฅผ Input์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

์ปฌ๋Ÿฌ ์ด๋ฏธ์ง€๋ฅผ ์‹คํ—˜์šฉ ๋ฐ์ดํ„ฐ๋กœ ์“ธ ๋•Œ๋Š” CIFAR-10๊ณผ ImageNet์ด ์žˆ์ง€๋งŒ ํ›„์ž๋Š” ๋†’์€ ์ˆ˜์ค€์˜ ์ปดํ“จํŒ… ํŒŒ์›Œ๊ฐ€ ํ•„์š”ํ•ด ์ „์ž๋ฅผ ์ฃผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

CIFAR-10_MLP

์ตœ์ข…์ ์œผ๋กœ 47%์˜ ์ •ํ™•๋„๋ฅผ ๊ฐ€์กŒ๋‹ค. ์ด๋Š” ํ‘๋ฐฑ ์†๊ธ€์”จ์˜ 90%์˜ ์ •ํ™•๋„ ์ˆ˜์ค€๊ณผ๋Š” ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค. ๋™์ผํ•œ MLP ์ธ๋ฐ๋„ ๋ง์ด๋‹ค. ์ฐจ์ด๊ฐ€ ๋‚˜๋Š” ์ด์œ ๋Š” ํ‘๋ฐฑ๊ณผ ์ปฌ๋Ÿฌ์— ์žˆ๋‹ค. ํ‘๋ฐฑ ๋ฐ์ดํ„ฐ๋Š” MLP์˜ Input์„ ์ž…๋ ฅํ•  ๋•Œ 1์ฐจ์›์œผ๋กœ ํŽด๋„ ์ด๋ฏธ์ง€์˜ ํŠน์ง•์„ ๋œ ๋ฏผ๊ฐํ•˜๊ฒŒ ์‚ฌ๋ผ์ง€์ง€๋งŒ(์ž˜ ์‚ฌ๋ผ์ง€์ง€ ์•Š๋Š”๋‹ค) ์ปฌ๋Ÿฌ ๋ฐ์ดํ„ฐ๋Š” ์ด๋ฏธ์ง€์˜ ํŠน์ง•์„ ์žƒ์–ด๋ฒ„๋ฆฌ๋Š” ๊ฒƒ์— ๋ฏผ๊ฐํ•˜๊ธฐ ๋•Œ๋ฌธ.

CIFAR-10_CNN

CNN์œผ๋กœ ํ–ˆ๋”๋‹ˆ 62%๋กœ ์„ฑ๋Šฅ ํ–ฅ์ƒ!

Last updated

Was this helpful?