SPPNet 질문입니다.

강의 잘보고 있습니다.

원본 이미지에서 selective search를 진행해서 최대 2000개의 region proposal을 받고 conv를 통한 feature맵에 매핑한다고 이해를 했습니다.

그런데 원본 이미지에서 conv를 지나쳐오면서 w와 h와 완전히 줄어드는데 아무리 배율을 유지하고 2000개를 proposal했을 때 feature map 사이즈가 아무리 작아도 45 * 45는 되어야 하는데 맞는 건가요?

그리고 각 selective search로 나온 region proposal된 각각의 최대2000개 object가 마지막의 각각 svm과 regression을 통과하는 수를 합쳐서 최대 2000회가 맞나요?

마지막으로 강의 리뉴얼된 거로 새로 업로드하신다고 하셨는데 이론 부분까지도 리뉴얼이 완성된 건가요?

질문이 너무 많아 번거롭게 해드리는 거 같네요 ....ㅎㅎ

안녕하십니까,

질문을 제가 명확하게 이해하지 못한 부분이 있는것 같습니다. 기대하신 답변이 아니시면 제가 문의한 내용을 좀 더 명확히 해주셔서 질문 내용을 update 부탁드립니다.

1. 원본 이미지에서 selective search를 진행해서 최대 2000개의 region proposal을 받고 conv를 통한 feature맵에 매핑한다고 이해를 했습니다.

그런데 원본 이미지에서 conv를 지나쳐오면서 w와 h와 완전히 줄어드는데 아무리 배율을 유지하고 2000개를 proposal했을 때 feature map 사이즈가 아무리 작아도 45 * 45는 되어야 하는데 맞는 건가요?

=> feature map 사이즈가 아무리 작아도 45*45 가 되어야 한다는 건지, selective search추천된 object가 아무리 작아도 45*45 가 되어야 한다는 건지요? 결론을 말씀드리면 둘다 아닙니다. Feature map 사이즈는 어떤 백본을 사용하는지, 원본 이미지 크기가 어떻게 되느냐에 따라 다릅니다.

AlexNet을 백본으로 사용하면 224*224 이미지를 입력할 경우 feature map은 13x13으로 나옵니다. 보통 object detection은 이보다는 큰 이미지를 사용합니다. 가령 448*448을 사용하면 feature map은 26x26으로 나옵니다. vgg 16의 경우는 224*224 이미지의 경우 7x7 feature map이 나옵니다.

그리고 각 selective search로 나온 region proposal된 각각의 최대2000개 object가 마지막의 각각 svm과 regression을 통과하는 수를 합쳐서 최대 2000회가 맞나요?

=> 개별 오브젝트에 대한 feature map mapping을 spp는 16(4x4)*256(채널수) + 4(2x2)*256 + 256의 1차원 vector로 매핑합니다. 즉 (16 + 4 + 1) * 256 개의 원소를 가진 vector로 매핑합니다.

그리고 1개의 이미지에 2000개의 오브젝트가 Selective search로 추천되므로 (16 + 4 + 1) * 256 vector가 2000개가 spp layer로 매핑됩니다. 이것을 2000 * (16 + 4 + 1) * 256 원소의 1차원 vector로 만들었는지, (2000, 16 + 4 + 1) * 256) shape으로 2차원 array 형태로 만들었는지는 논문에 명확하게 나오진 않지만 아마도 후자인 2차원 형태의 array로 만들었을 것으로 추정합니다.

마지막으로 강의 리뉴얼된 거로 새로 업로드하신다고 하셨는데 이론 부분까지도 리뉴얼이 완성된 건가요?

=> 실습 강의는 전체 다 리뉴얼 했고, 이론 강의는 리뉴얼이 된 부분이 있고, 굳이 변경할 필요가 없다고 판단된 강의들은 변경하지 않았습니다.

이론과 실습을 포함한 전체 139개 강의에서 이전 이론 강의를 그대로 가져온 강의는 10개 정도 되는것 같습니다.

감사합니다.

인프런 커뮤니티 질문&답변