인프런 커뮤니티 질문&답변

jack님의 프로필 이미지
jack

작성한 질문수

[개정판] 딥러닝 컴퓨터 비전 완벽 가이드

Faster RCNN의 이해 02 - Anchor Box를 활용한 RPN 구성

앵커박스

작성

·

206

0

계속 이해해보려고 구글링했는데 뭔가 속시원게 해답이 안나와서 한번만 더 질문하겠습니다. ㅜㅜ

지난강의에서 피처맵의 그리드포인트 마다 앵커 9개를 매핑한다고 하셨는데, 이번 강의에서 RPN 네트워크는 피처맵을 이진 분류 하기 까지 그리드포인트 매핑과정이 없어서 뭔가 연결이 잘 안되는 것 같습니다.

다른 문제는 5:50초에 40x50x9 는 그리드포인트마다 9개의 앵커박스를 나타내는 것이고, 앵커박스마다 FG인지 BG인지 판단한다고 하셨는데, 제 머리로는 1x1 컨볼루션을 하고 9output을 뽑는다는게 잘 이해가 안되는 것 같습니다. 1x1 컨볼루션은 차원의 축소를 하는 역할을 하는것인데 9가지 모양의 그리드를 어떻게 1x1 컨볼루션 40x50피처맵 포인트마다 연결을 시키는 것인지 잘 이해가 되지 않습니다...ㅜㅜ

답변 1

2

권 철민님의 프로필 이미지
권 철민
지식공유자

40x50x512의 feature map이 있을 때 여기에 1x1 conv를 적용하는 것이 바로 anchor box를 grid point에 매핑하는 것입니다. 

40x50x512 의 feature map에서 CNN 필터를 작용하면 1 Grid 씩 이동하면서 filter가 적용됩니다. 그러니까 면적 40x50 즉 높이 40, 너비 50 point를 가지는 grid별로(즉 50칸 왼쪽에서 오른쪽으로 이동하면서, 40칸 위에서 아래로 이동하면서) 1x1 CNN 필터가 연산으로 적용됩니다. 

1X1 필터가 차원을 축소하지만 여기서는 깊이의 차원을 축소하는 것이지 면적을 축소하는 게 아닙니다. 

40x50x512에 1x1 Conv 필터 9개를 적용해서 40x50x9 가 되고 40x50이 개별 grid point들, 그리고 9가 anchor 개수가 됩니다. 

똑같은 궁금증에 대해서 다른 분이 질문을 남긴걸 보고 여기에 다시 한번 질문을 드립니다. 알듯 말듯한데 조금만 더 자세히 설명해주시면 감사하겠습니다!

jack님의 프로필 이미지
jack

작성한 질문수

질문하기