YOLO_V3에서 output layer 질문입니다.

[개정판] 딥러닝 컴퓨터 비전 완벽 가이드

GPU를 활용한 Object Detection 모델의 Training 수행 시 유의사항

작성

- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
- 먼저 유사한 질문이 있었는지 검색해보세요.
- 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다.
- 서로 예의를 지키며 존중하는 문화를 만들어가요.
- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.

안녕하세요. 로드맵 따라가며 강의 정말 잘 듣고있습니다 !
항상 친절한 답변도 감사드립니다.

다름이 아니라 Yolo 3를 구현하면서 궁금증이 생겼습니다.
1. output을 담당하는 layer가 3개이므로(13X13/26X26/52X52) 3개의 layer에서 forward를 이용하여 결과를 추출한다고 이해했는데 이게 맞나요?

3개에서 뽑은 output(confidence_threshold보다 큰) 을 종합한 후 NMS process를 거쳐서 최종적으로 조건에 맞는 index를 반환받아 그 index를 이용해 image에 구현한다고 이해했는데 이것도 맞을까요?
만약 위에서 제가 이해한게 어느정도 맞다면 마지막으로 드는 궁금증은 13X13, 26X26, 52X52에서 각 Grid Cell이 image의 object를 예측할텐데,

이는 비유하자면 Random Forest에서 각각 학습한 model이 다수결(?)로 infernece한다고 이해해도 될까요? 즉, 세개의 Multi Scale에서 학습한 각각의 gride cell의 anchor box들이 자신의 의견을 내놓아 그중 confidence, nms의 조건을 이용해 최종적으로 조건에 부합하는 몇 개의 bbox만 남는걸로 이해해도 되는지 여쭤보고 싶습니다..!

python 머신러닝 딥러닝 keras tensorflow 컴퓨터-비전

답변 2

권 철민

지식공유자

안녕하십니까,

잘 듣고 계시다니, 저도 기분이 좋군요 ^^

1, 2 번 질문은 말씀하신 내용이 맞습니다.

3번 질문도 맞지만, Random Forest로 비유하기에는 살짝 차이가 있습니다. 3개의 output layer의 출력 결과는 나중에 concat 되어서 합쳐 집니다. 이 합쳐진 결과를 가지고 NMS를 적용해서 최종적으로 object detection 결과가 나오게 됩니다.

감사합니다.

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. jcy4023님의 질문에 대해 답변해 드리겠습니다.

YOLOv3의 작동 원리에 대해 궁금증을 가지고 계십니다. 여러분이 이해하신 부분은 대체로 정확합니다. YOLOv3는 여러 개의 scale에서 object detection을 수행하는 것이 특징입니다. 여기에서 언급한 13x13, 26x26, 52x52는 입력 이미지를 다양한 크기의 그리드로 나누어 각 그리드 셀 별로 객체를 감지하는 구조입니다.

네, 맞습니다. YOLOv3는 입력 이미지에 대해 여러 scale에서 출력을 생성합니다. 이 출력들은 각각 다른 크기의 feature map에서 얻어져 그에 따라 각기 다른 크기의 객체를 감지할 수 있습니다.
네, 이 부분도 올바르게 이해하셨습니다. 세 가지 다른 scale에서 얻어진 결과를 종합하여 NMS(Non-Maximum Suppression)를 수행함으로써 서로 겹치는 bounding box들 중 가장 확률이 높은 것을 선택하게 됩니다.
마지막으로, Random Forest와의 비유는 YOLOv3가 다양한 스케일에서 예측을 수행하는 방식을 이해하는데 도움이 될 수 있습니다. 여기서 각 scale에서의 prediction은 독립적으로 이루어지며, 최종 결과는 이러한 예측의 조합을 통해 결정됩니다. 각 그리드 셀의 anchor box들이 자신의 ‘의견’을 제공하고, 최종적으로 NMS를 통해 최적의 bounding box만 선택되는 과정은 멀티모델 결정 방식과 유사하다고 볼 수 있습니다.

이와 관련된 더 자세한 설명을 원하신다면, “YOLO-V3 모델에서 Feature Map과 이미지 사이즈 관계 질문입니다.”에서 유사한 내용에 대한 설명을 찾아보실 수 있습니다. 이 답변에서는 YOLO-V3 모델의 다양한 크기의 Feature Map이 어떻게 다른 크기의 객체를 감지하는데 사용되는지에 대해 설명합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변

YOLO_V3에서 output layer 질문입니다.