23 Tue

[AI 스쿨 1기] 11주차 DAY 2

Visual Recognition

Object Detection 문제정의

  • Classification : 이 영상은 자동차 영상일 확률이 가장 높다

  • Classification + Localization : 이 영상은 자동차 영상일 확률이 가장 높고 이 자동차는 이 위치쯤 있다

  • Object Detection : 영상안에 있는 모든 물체들과 그것들의 위치 영역을 함께 찾는다

  • 아래로 갈수록 난이도가 어려움. 특히 Object Detection 같은 경우는 몇 개의 object가 존재하는지 알 수 없기 때문

  • [물체의 존재, 중심점의 x좌표, 중심점의 y좌표, 물체의 너비, 물체의 높이] + [class]

  • object별로 벡터가 하나씩 필요하다

    • 어느 위치에 Object가 있는지 찾아야함

    • Object의 영역과 크기도 결정

    • Object를 분류해야함

Object Detection 요소 기술

  • Region Proposal : Object가 있을만한 영역을 다수 추천

    • 모든 영역을 볼 수가 없으므로 있을만한 영역을 추천받음

  • Non-max Suppression : 겹치는 영역을 제거

  • Classification : 영역속의 object를 분류

  • Bounding Box Regression : Object영역을 미세조정

Faster RCNN 기본 flow

  • RCNN -> Fast RCNN -> Faster RCNN

  • 초기에 Pre-trained된 CNN을 통과시켜 Feature map을 얻는다

    • Base Network라고도 부름

  • 얻은 feature map을 통해 region proposal을 참고하여 얻어진 region을 가지고 입력벡터로 설정한다

IoU measure

  • Intersection over Union

  • IoU = 교집합 / 합집합

Objectness벡터

  • 2개로 구성

  • 1개는 Object일 확률, 다른 1개는 Object가 아닐 확률

  • Ground Truth

    • 사람이 라벨링 한 정보. 중심점, 위치, 너비 등

  • Ground Truth와 object영역의 IoU를 계산하여 threshold보다 크면 object 영역이라고 판단

    • 실제로 Ground Truth가 너무 클 경우 object 영역이 아니라고 판단할 가능성이 높음(실제로는 맞지만)

  • 그렇다면, 교집합으로만 판단하면 되지 않는가?

    • object영역을 찾기는 쉬워진다

    • 그러나 Box Boundary Regressor가 할 일이 어려워짐

  • Box Boundary Regressor

    • object의 경계상자의 좌표를 찾는 일을 함

Bounding Box Regressor

  • 이전에 말했던 [높이, 너비, x 중심점, y중심점] 이 아니라 실제로는 [셀높이 / 전체높이, 셀너비 / 전체너비, x중심점으로부터 벗어난 크기, y중심점으로부터 벗어난 크기] 를 다룬다

  • anchor box가 없다면?

    • 각 셀간의 파라미터 값이 서로 달라서 학습이 되기 어려움

    • object의 일부분만을 object라고 판단한다. => 잘 학습되었다고 할 수는 없다.

Anchor Box

  • 미리 정해진 크기와 비율을 가진 정의된 후보 box

  • 각 box의 크기는 정하기 나름이며 주로 배수를 해서 크기를 증가시킨다. => 어떤것이 효율적인지는 아직 연구 중

  • 가장 작은 box를 IoU와 비교해서 object를 판단

  • non-object로 판단되면 더 큰 box와 비교. 이 과정을 반복

  • 이 후 판단 될 경우 멈춤

  • BAB : Background Anchor Box

  • OAB : Object Anchor Box

  • 이 후 모든 Anchor box의 BAB/OAB 결과를 하나의 벡터로 만든다.

    • 해당 위치에 대해서는 N * M 사이즈의 AB 박스는 Object로 판별할 수 있다는 의미 전달

    • 길이는 2 x K

  • 각 위치마다 이 벡터가 존재하므로 image size * k 개의 outpu t

Last updated

Was this helpful?