(06๊ฐ) Computer Vision Applications
210812
์ด์ ์ ๋ชจ๋ธ๋ค์ ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ฟ๋ง ์๋๋ผ Segmentaion๊ณผ Detection๋ค์ ๋ํด์๋ ์ฐ๊ตฌํ๋ค.
Semantic Segmentation
์ด๋ฏธ์ง์ ๋ชจ๋ ํฝ์ ์ด ์ด๋ค ๋ผ๋ฒจ์ ์ํ๋์ง ์ฐพ๋ ๊ฒ์ด๋ค. Dense Classification
์์จ์ฃผํ ๋ฌธ์ ๋ฑ์ ๋ง์ด ์ฌ์ฉ๋๋ค.
Fully Convolutional Network
์ ํต์ ์ธ CNN์ ์ด๋ ๋ค.

Fully convolutional network๋ dense layer๊ฐ ์๋ค.

dense layer๋ฅผ ์์ ๋ ๊ณผ์ ์ convolutionalization ์ด๋ผ๊ณ ํ๋ค. dense layer๊ฐ ์์ด์ง ์์ฒด๊ฐ ์ฅ์ .

ํ๋ผ๋ฏธํฐ ์๋ ๋์ผํ๋ค.
์ผ์ชฝ : 4x4(ํํฐ) x 16(์ ๋ ฅ์ฑ๋) x 10(์ถ๋ ฅ์ฑ๋)
์ค๋ฅธ์ชฝ 4x4(ํํฐ) x 16(์ ๋ ฅ์ฑ๋) x 10(์ถ๋ ฅ์ฑ๋)
ํ๋ผ๋ฏธํฐ๋ ๋ฌ๋ผ์ง ๊ฒ์ด ์๋๋ฐ ์ ์ด๋ ๊ฒ ํ ๊น?
๊ธฐ์กด CNN์ ๊ฒฐ๊ณผ๋ฅผ 1์ฐจ์์ผ๋ก ๋ฑ๊ธฐ ๋๋ฌธ์ ๋จ์ํ ๋ถ๋ฅ๋ง ํ ์ ์์๋๋ฐ, FCN์ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ฏธ์ง๋ก ๋ฑ๊ธฐ ๋๋ฌธ์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ํ ํํธ๋งต์ ์ป์ ์ ์๊ธฐ ๋๋ฌธ(๋๋ ํ์คํ๊ฒ ์ ๋ชจ๋ฅด๊ฒ ๋ค)
๋ํ, FCN์ ์ด๋ค ํฌ๊ธฐ์ ์ ๋ ฅ์ด๋ผ๋ ์๊ด์์ด ์ ๋ ฅํ ์ ์์ง๋ง ์ถ๋ ฅ์ ํฌ๊ธฐ๊ฐ ์์์ง๊ฒ๋๋ค. ๊ทธ๋์ ์ด๋ฌํ ์ถ๋ ฅ์ ํฌ๊ธฐ๋ฅผ ๋๋ฆด ์ ์๋ ๊ธฐ์ ๋ค์ด ํ์ํ๊ณ ์ด๋ฌํ ๊ธฐ์ ๋ค์ด ๋ฑ์ฅํ๊ฒ ๋๋ค
Deconvolution(conv transpose)

convolution์ ์ญ์ฐ์ฐ์ ํด์ค๋ค. ๊ทธ๋ฌ๋ฉด 30x30์ด 15x15๊ฐ ๋ ๊ฒ์ ๋ค์ 30x30์ผ๋ก ํ๊ฒ ํด์ค๋ค. ๊ทผ๋ฐ ์ฌ์ค ์ญ์ฐ์ฐ์ ๋ถ๊ฐ๋ฅํ๋ค.
3 + 7 = 10 ์ด๊ณ 2 + 8 = 10 ์ด์ง๋ง, 10์ ๊ฐ์ง๊ณ ์๋ ์๊ฐ ๋ฌด์์ด์๋์ง๋ ์ ์ ์๊ธฐ ๋๋ฌธ
๋ฐ๋ผ์ ์๋ฐํ ๋งํ๋ฉด ์ญ์ฐ์ฐ์ ์๋๋ค. ๊ทธ๋ ์ง๋ง ํ๋ผ๋ฏธํฐ์ ์ซ์์ ๋คํธ์ํฌ์ ๊ตฌ์กฐ๋ฅผ ๋ดค์ ๋๋ ์ญ์ฐ์ฐ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค. ์๋์ ๊ฐ์ด ํจ๋ฉ์ ๋ง์ด์ค์ ์๋ ํฌ๊ธฐ๋ก ๋๋ฆฌ๋ ๋ชจ์ต


Detection
R-CNN
ํ ์ ์๋ ๊ฐ์ฅ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ด๋ค. ์ด๋ฏธ์ง ๋ด์์ 2์ฒ๊ฐ์ ๋์ REGION(Boundix box)์ ๋ฝ์๋ธ๋ค. ๊ฐ๊ฐ์ ๋ฝ์ Region์ ํฌ๊ธฐ๋ฅผ ํต์ผํ๊ณ CNN์ ํตํด ํน์ง์ ์ป์ ๋ค์ SVM์ ์ฌ์ฉํด์ ๋ถ๋ฅํ๋ค.
SPPNet
Spatial Pyramid Pooling
R-CNN์ ๊ฐ์ฅ ํฐ ๋ฌธ์ ์ค ํ๋๋ ์ด๋ฏธ์ง ์์์ ๋ฐ์ฐ๋ ๋ฐ์ค๋ฅผ 2์ฒ๊ฐ๋ฅผ ๋ฝ์ผ๋ฉด ์ด 2์ฒ๊ฐ๋ฅผ ๋ค CNN์ ๋ฃ์ด์ผ ๋๋ ๊ฒ. ์ด๋ฏธ์ง ํ์ฅ์ ์ํด ๋ชจ๋ธ์ 2์ฒ๋ฒ ๋๋ ค์ผํ๋ค.
SPPNet์ ์์ด๋์ด๋ CNN์ ํ๋ฒ๋ง ๋๋ฆฌ์. ๊ทธ๋ฆฌ๊ณ ์ด๋ฏธ์ง ๋ด์์ ์ป์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ํด๋นํ๋ ํผ์ฒ๋งต์ ์ป์.
R-CNN ์๋ํด์ ๋นจ๋ผ์ก๋ค.
Fast R-CNN
SPP์ ๋์ผํ ์ปจ์ ์ ๊ฐ์ก๋ค. ๋ท๋จ์ Neural Network๋ฅผ ํตํด์ Boudning box๋ฅผ ๊ฒฐ์ ํ๋ค๋ ์ฐจ์ด
Faster R-CNN
Bounding box๋ฅผ ๋ฝ์๋ด๋ Region Proposal๋ ํ์ต์ ํ์๋ ์์ด๋์ด. ์๋๋ฉด ์ด Reigon์ ๋ฝ๋ ์๊ณ ๋ฆฌ์ฆ์ ์์์ Region์ ๋ฝ๊ธฐ ๋๋ฌธ.
Region Proposal Network๋ ๋ฝ์ Region์์ ๋ฌผ์ฒด๊ฐ ์์์ง ์์์ง๋ฅผ ํ๋จํ๋ค. ์ฌ๊ธฐ์ ํ์ํ ๊ฒ์ด Anchor box์ด๋ค
Anchor box๋ ๋ฏธ๋ฆฌ ์ ํด๋์ bounding box์ ํฌ๊ธฐ์ด๋ค
์ฌ๊ธฐ์๋ FCN์ด ํ์ฉ๋๋ค.

๋์ด๊ฐ ๊ฐ๊ฐ 128, 256, 512์ธ Bounding Box์ ๊ฐ๋ก ์ธ๋ก ๋น์จ์ด 1:1, 1:2, 2:1์ด๋ฏ๋ก ์ด 9๊ฐ์ Box๊ฐ ์กด์ฌํ๋ค.
๋, Bounding box์ ์ค์ฌ์ (x, y)์ ๊ฐ๋ก์ ์ธ๋ก๊ธธ์ด w, h์ 4๊ฐ์ง ํ๋ผ๋ฏธํฐ๊ฐ ํ์ํ๋ค.
Bounding box๊ฐ ์ธ๋ชจ๊ฐ ์๋์ง ์๋์ง์ ๋ํ Yes or No์ 2๊ฐ์ง ํ๋ผ๋ฏธํฐ๊ฐ ํ์ํ๋ค
YOLO
์ง๊ธ์ v5๊น์ง ๋์๋๋ฐ, v1์ ๋ค๋ฃฐ ๊ฒ์
๊ธฐ์กด ๋ถ๋ฅ๊ธฐ๋ค๊ณผ ๋ค๋ฅธ์ ์ ์ด๋ฏธ์ง์ Region์ ์ฐพ๊ณ ์ด Region์ ํด๋นํ๋ ํผ์ฒ๋งต์ ๋ฝ๋ ๊ฒ์ด ์๋๋ผ ๊ทธ๋ฅ ์ด๋ฏธ์ง ํ์ฅ์ ์ ๋ ฅํ๋ฉด ๋ฐ๋ก ๊ฒฐ๊ณผ๊ฐ ๋์ฌ ์ ์๋๋ก ํ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ก๋ค
์ด์ ์๋ Region Proposal Network๊ฐ ์์๊ณ ๊ฑฐ๊ธฐ์ ๋์ค๋ Bounding Box๋ฅผ ๋ฐ๋ก ๋ถ๋ฅํ๋ค. YOLO๋ ํ๋ฒ์ ๋ถ๋ฅํ๋ค.

YOLO๋ ์ด๋ฏธ์ง๊ฐ ๋ค์ด์ค๋ฉด SxS์ ๊ฒฉ์๋ก ์ด๋ฏธ์ง๋ฅผ ๋๋๊ฒ ๋๋ค. ์ฐพ๊ณ ์ ํ๋ ๋ฌผ์ฒด์ ์ค์์ด ๊ทธ๋ฆฌ๋ ์์ ๋ค์ด๊ฐ๋ฉด ๊ทธ ๊ทธ๋ฆฌ๋์ ์ด ํด๋น ๋ฌผ์ฒด์ Bounding box์ Class๊น์ง ๊ฐ์ด ์์ธกํด์ฃผ๊ฒ๋๋ค.
์ด์ ์๋ Anchor box๊ฐ ์์๋๋ฐ ์ฌ๊ธฐ์๋ ์๊ณ ๋จ์ง Bounding box์ ๊ฐ์๋ง์ ๋ฏธ๋ฆฌ ์ ํด์ฃผ๊ฒ ๋๋ค. (๋ ผ๋ฌธ์์๋ 5๊ฐ) ๊ทธ๋ฌ๋ฉด ๋ชจ๋ธ์ n๊ฐ์ bounding box์ (x, y, w, h)๋ฅผ ์ฐพ๊ฒ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ค์ ๋ก ์ธ๋ชจ์๋์ง์ ๋ํ ์ฌ๋ถ๋ ๋ฐํํ๋ค.
๊ฒฐ๊ตญ S*S*(B*N+C) ์ ํฌ๊ธฐ๋ฅผ ๊ฐ๋ ๊ฒฐ๊ณผ๊ฐ ๋ฐํ๋๋ค.
S*S : ๊ทธ๋ฆฌ๋์ ๊ฐ์
B*N : ๋ฐ์ด๋ฉ ๋ฐ์ค(x, y, w, h, confidence)์ ๋ฏธ๋ฆฌ ์ ์ํ ๊ฐ์
C : Number of Classes
Last updated
Was this helpful?