(6๊ฐ•) Model 2

210825

Pretrained Model

ImageNet์€ 2๋งŒ๊ฐœ์˜ ์นดํ…Œ๊ณ ๋ฆฌ์™€ 1400๋งŒ์žฅ์˜ ๋†’์€ ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐ์…‹์ด๋‹ค. ์ด๋Ÿฌํ•œ ImageNet์ด ๋“ฑ์žฅํ•˜๋ฉด์„œ ์ด ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•ด์„œ ๋ชจ๋ธ์˜ ๊ฒ€์ฆ์ด ์ด๋ฃจ์–ด์ง€๊ฒŒ ๋˜์—ˆ๊ณ  ์ปดํ“จํ„ฐ ๋น„์ „์˜ ๋ฐœ์ „์ด ๊ธ‰๊ฒฉํžˆ ์‹œ์ž‘๋˜์—ˆ๋‹ค.

Augmentation ๋งŒ์œผ๋กœ๋Š” ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™”์— ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. ๋˜ํ•œ, ๋งค๋ฒˆ ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌํ•˜๊ธฐ๋„ ์–ด๋ ต๊ณ  ๋งค๋ฒˆ ํ•™์Šตํ•˜๊ธฐ๋„ ์–ด๋ ต๋‹ค. ์ด๋Ÿฐ ๋น„ํšจ์œจ์„ฑ์„ ํ•ด์†Œํ•˜๊ธฐ ์œ„ํ•ด ๋Œ€์šฉ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ์…‹์„ ํ•™์Šตํ•œ ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ๋‹ค. ์ข‹์€ ํ’ˆ์งˆ๊ณผ ๋Œ€์šฉ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋กœ ๋ฏธ๋ฆฌ ํ•™์Šตํ•œ ๋ชจ๋ธ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋‚ด ๋ชฉ์ ์— ๋งž๊ฒŒ ๋‹ค๋“ฌ์–ด์„œ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ. ์ด๋ ‡๊ฒŒ๋˜๋ฉด ์‹œ๊ฐ„์ ์œผ๋กœ ๋งค์šฐ ํšจ์œจ์ ์ด๊ฒŒ๋œ๋‹ค.

torchvision ์—๋Š” ์—ฌ๋Ÿฌ ๋ชจ๋ธ์„ ๋ชจ์•„๋‘์—ˆ์œผ๋ฉฐ, ์—ฌ๊ธฐ์„œ ๋ชจ๋ธ์„ ๊ฐ€์ ธ์˜ฌ ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ pretained=True ๋ฅผ ์ž…๋ ฅํ•ด์ฃผ๋ฉด ํ•™์Šต๋œ ํŒŒ๋ผ๋ฏธํ„ฐ๊นŒ์ง€ ๊ฐ™์ด ๊ฐ€์ ธ์˜ฌ ์ˆ˜ ์žˆ๋‹ค.

๋˜, timm ์—๋„ ์—ฌ๋Ÿฌ ๋ชจ๋ธ๋“ค์ด ์žˆ๋‹ค. torchvision ๊ณผ ์ฐจ์ด์ ์€ ์ข€ ๋” ์‹คํ—˜์ ์œผ๋กœ ๋งŒ๋“  ์—ฌ๋Ÿฌ ๊ฐ€์ง€์˜ ๋ชจ๋ธ์ด ์กด์žฌํ•œ๋‹ค๋Š” ๊ฒƒ. ์˜ˆ๋ฅผ ๋“ค์ž๋ฉด, ๋‹จ์ˆœํžˆ efficientnet ํ•˜๋‚˜๋งŒ ์žˆ๋Š”๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ด ๋ชจ๋ธ์— ๋Œ€ํ•œ ์—ฌ๋Ÿฌ ์„œ๋ธŒ๋ชจ๋ธ์ด ์กด์žฌํ•œ๋‹ค. ์•„๋ž˜ ์˜ˆ์‹œ๋Š” Vision Transformer ๋ชจ๋ธ์— ๋Œ€ํ•ด์„œ ์—ฌ๋Ÿฌ ๋ชจ๋ธ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋ชจ์Šต

์ด๋ฏธ์ง€๋„ท์„ ํ•™์Šตํ•œ ๋ชจ๋ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง„๋‹ค๊ณ  ํ•˜์ž.

์ด ๋ชจ๋ธ์€, ์‹ค์ƒํ™œ์— ์กด์žฌํ•˜๋Š” ์ด๋ฏธ์ง€๋ฅผ 1000๊ฐœ์˜ ๋‹ค๋ฅธ Class๋กœ ๊ตฌ๋ถ„ํ•œ ๋ชจ๋ธ์ด๋‹ค.

์—ฌ๊ธฐ์„œ ์ค‘์š”ํ•œ ์ ์ด ๋ฌด์—‡์ด๋ƒ๋ฉด, ๋‹จ์ˆœํžˆ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๋ชจ๋ธ์ด๊ณ  ์„ฑ๋Šฅ์ด ์ข‹๋‹ค๊ณ  ํ•ด์„œ ๊ฐ€์ ธ๋‹ค๊ฐ€ ์“ฐ๋ฉด ์•ˆ๋œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ํ•ด๋‹น ๋ชจ๋ธ์ด ๋‚ด๊ฐ€ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฌธ์ œ์— ์ ์šฉ๋  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ๊ผญ ํ™•์ธํ•ด์•ผํ•œ๋‹ค.

๊ณผ์—ฐ, ๊ตฌ๋ฆ„์„ ๋ถ„๋ฅ˜ํ•˜๋ ค๋Š” ๋ฌธ์ œ์—์„œ ์ด๋ฏธ์ง€๋„ท ๋ชจ๋ธ์„ ๊ฐ€์ ธ๋‹ค ์“ฐ๋ฉด ์„ฑ๋Šฅ์ด ๋‚˜์˜ฌ๊นŒ ๊ณ ๋ฏผํ•ด๋ณด์ž. ๊ธฐ์กด์— ์ด๋ฏธ์ง€๋„ท ๋ฐ์ดํ„ฐ์…‹์— ๊ตฌ๋ฆ„์ด ์žˆ์„์ง€ ์—†์„์ง€ ํ™•์ธํ•ด๋ด์•ผ ํ•œ๋‹ค. ๊ตฌ๋ฆ„์ด ์—†๋‹ค๋ฉด pretrained ๋ชจ๋ธ์„ ๋ถˆ๋Ÿฌ๋„ ์„ฑ๋Šฅ์ด ์•ˆ๋‚˜์˜ฌ ์ˆ˜๋„ ์žˆ๋‹ค. ๋˜, ๊ตฌ๋ฆ„์ด ์žˆ๋‹ค ํ•˜๋”๋ผ๋„ ๊ตฌ๋ฆ„์˜ ์ข…๋ฅ˜๊นŒ์ง€๋Š” ๊ตฌ๋ณ„ํ•˜์ง€ ์•Š์•˜์„ ๊ฒƒ์ด๋ฏ€๋กœ ์ด ๋ถ€๋ถ„์— ๋Œ€ํ•ด์„œ ์„ฑ๋Šฅ์„ ์žฅ๋‹ดํ•  ์ˆ˜ ์—†๋‹ค.

ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ์ถฉ๋ถ„ํ•  ๋•Œ๋Š”, ์œ ์‚ฌ์„ฑ์ด ๋‚ฎ๋”๋ผ๋„ ์ถฉ๋ถ„ํžˆ Backbon์„ ์—…๋ฐ์ดํŠธ ํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์œ„์ฒ˜๋Ÿผ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋‹ค.

CNN Backbon์€ freezing ํ•œ ์ฑ„๋กœ Classifier๋งŒ ๋ฐ”๊พธ๋Š” ๊ฒƒ์„ Feature Extraction ์ด๋ผ๊ณ  ํ•˜๋ฉฐ ๋ชจ๋‘ ๋ฐ”๊พธ๋Š” ๊ฒƒ์„ Pine Tuning์ด๋ผ๊ณ  ํ•œ๋‹ค.

Low Similiarity ์˜ ๊ด€๊ณ„์— ์žˆ๋”๋ผ๋„ pretrained๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ๋˜์ง€ ์•Š์€ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ ๋ณด๋‹ค ์‹คํ—˜์ ์œผ๋กœ ์„ฑ๋Šฅ์ด ์ข‹๋‹ค๊ณ  ํ•œ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜, ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•  ๋•Œ๋Š” backbone์„ ์—…๋ฐ์ดํŠธ ํ•˜๊ธฐ๊ฐ€ ์–ด๋ ต๋‹ค. ๋งŒ์•ฝ์— ์œ ์‚ฌ๋„๊ฐ€ ๋†’๋‹ค๋ฉด ๋ถ„๋ฅ˜๊ธฐ๋งŒ ํ•™์Šตํ•ด์„œ ์‚ฌ์šฉํ•˜๊ฒŒ ๋˜๊ณ  ์œ ์‚ฌ๋„๊ฐ€ ๋‚ฎ๋‹ค๋ฉด ์˜ค๋ฒ„ํ”ผํŒ…์ด๋‚˜ ์–ธ๋”ํ”ผํŒ…์œผ๋กœ ์„ฑ๋Šฅ์ด ์•ˆ๋‚˜์˜ฌ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๊ธฐ ๋•Œ๋ฌธ์— ์‚ฌ์šฉ์„ ์ถ”์ฒœํ•˜์ง€ ์•Š๋Š”๋‹ค.

Last updated

Was this helpful?