인프런 커뮤니티 질문&답변

Alex님의 프로필 이미지
Alex

작성한 질문수

[개정판] 딥러닝 컴퓨터 비전 완벽 가이드

Faster RCNN의 이해 02 - Anchor Box를 활용한 RPN 구성

선생님 질문입니다!

작성

·

416

·

수정됨

0

1:01의 그림을 보면서 질문드리고 있습니다!

  1. 원래 CNN을 거치면 FC layer에 가기전에 여러개의 피처맵을 Flatten 해서 맞춰주는데 지금 그림에서 Conv Network를 통과한 feature 이미지는 하나만 있다고 표현되는데 왜 그런건가요?

    제 생각대로라면 Flatten이 되기전에는 여러 피처맵이 있는걸로 알고 있습니다.

  2. 그리고 이미 vggnet 을 통해서 나온 피처맵을 3*3 conv를 하는 이유를 모르겠습니다. conv를 적용하지 않고 그냥 1*1 conv를 하는 것이 나을거라 생각하는데 이해가 잘 되지 않습니다.

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

1번 질문은 제가 잘 이해하지 못했습니다. 어디에 feature image가 하나가 있는 건지요? 해당 시간의 화면에 feature image가 하나가 있는게 어떤 부분을 의미하는지 캡쳐나 보다 자세한 설명 부탁드립니다.

  1. vgg 결과의 feature map 이후에 3x3 Conv 연산을 왜 하는지는 논문에 명확하게 기술되어 있지는 않습니다. 다만 제 개인적인 생각으로는 RPN 네트웍을 VGG 결과 Feature map에 바로 1X1 Conv를 붙이는 형식으로 만들어 버리게 되면 RPN 네트웍이 1X1으로만 구성되고, 지나치게 단순화 되어서 좋은 모델 성능을 이끌지 못한 결과가 되었기 때문이 아닌가 싶습니다.

    때문에 RPN 네트웍을 3X3 으로 Conv 구성 후 1x1 으로 구성해서 좀 더 Layer와 가중치를 가지는 모델로 만드는게 보다 나은 형태가 되었기 때문일 것 같습니다.

감사합니다.

Alex님의 프로필 이미지
Alex
질문자

스크린샷 2023-04-11 오후 5.33.00.png답변 감사합니다.

1번 질문을 다시 드리자면 여기 원안에 있는 피처는 가령 200개의 피처맵이 나왔다고 한다면 200개의 피처맵 모두에 RPN을 적용하는 건가요?

권 철민님의 프로필 이미지
권 철민
지식공유자

200개의 feature map이라는 표현은 사용하지 않습니다.

채널이 200개인 feature map을 의미하신것 같습니다. 보통 채널은 3차원으로 추상화하면 Depth입니다. 때문에 캡처하신 이미지 처럼 feature map이 표현된 것입니다.

Alex님의 프로필 이미지
Alex
질문자

아 너무 잘 이해가 되었습니다. 감사합니다!

Alex님의 프로필 이미지
Alex

작성한 질문수

질문하기