해결됨
[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
RPN 내부 과정이 어떻게 전개가 되는지에 대한 질문입니다!
안녕하세요! RPN이 전개되는 과정에 있어서 이해가 안되서 질문드립니다.. 우선 제가 이해한 선에서 RPN 내부 과정을 순차적으로 말씀드리면 다음과 같습니다.
1. 원본이미지를 VGG와 같은 Feature Extractor를 통과시켜 서로 다른 사이즈인 여러개의 피처 맵이 추출 -> 2. 각 피처 맵에 대해서 3 by 3 컨볼루션을 수행하는데, 이 때 3 by 3 컨볼루션의 한 칸 당 9개의 Anchor Box들이 새겨져 있음 -> 3. 3 by 3 컨볼루션을 수행한 후 Feature Map들 사이즈는 더 줄어듦(여전히 Feature Map의 한 칸 당 9개의 Anchor Box들이 새겨져 있음) -> 4. 갑자기 1 by 1 컨볼루션을 수행해서 이진 분류는 2 by 9 아웃풋, 회귀는 4 by 9 아웃풋..? 그리고 이진분류, 회귀..? 이 부분이 이해가 가질 않습니다..
1 by 1 컨볼루션을 수행하는 이유가 서로 다른 Feature Map들의 사이즈를 통일시켜주기 위함은 알고 있습니다. 그런데 왜 아웃풋이 위와 같이 되는지(2는 백그라운드다 아니다, 4는 박스 4개의 좌표인 것은 압니다.. 그런데 왜 갑자기 1 by 1 컨볼루션만을 수행했는데 아웃풋이 2랑 4가 나오는지 모르겠습니다..), 또 여러개의 Anchor Box들과 Ground Truth 박스와 비교하는 분류, 회귀 문제를 어디 단계에서 수행해야 하는지 모르겠습니다.. 너무 헷갈리네용..