Written on
·
22
0
FeatureMap 단에서는 이 이미지에 대한 정보를 가지고 있지 않은데 어떻게 Bounding Box Regression 이 학습되는지 모르겠습니다.
CNN 처럼 Loss 를 기반으로 Back Propagation 과 같이 자동으로 weight가 업데이트 되려면 기준이 있어야 하는데 여기서 FC layer를 거쳐서 레이블이 할당되지 않았음에도 불구하고 어떻게 해당 좌표들이 구해지고 업데이트 되는지 모르겠습니다.
Answer 2
0
안녕하십니까,
(지금 강의를 처음 들으시는 거라면, 그리고 현재 강의 영상까지만 들으셨다면), 앞으로의 강의 영상에서 해당 부분을 설명드릴 겁니다. 이론적인 설명은 뒤에서 더 자세히 드리겠지만, 요약해서 말씀드리면
Object Detection은 Feature Map 변환 후 오브젝트가 있을 만한 위치를 추정해 내고, 해당 위치에서 얼마나 멀리 오브젝트가 떨어져 있는지를 판별해 냅니다.
그리고 레이블은 Regression 용이 아니라 Classification용이며 학습시에 데이터로 주어집니다. 그래서 해당 오브젝트가 어떤 클래스인지 판별하게 됩니다. 그리고 해당 오브젝트가 이미지의 어느 위치에 있는지 좌표 형태로 주어지게 되고, 모델이 학습하면서 오브젝트가 있을만한 위치를 추정하고, 해당 위치에서 얼마나 떨어져 있는지를 계속 학습하면서 정교해 집니다.
학습에 완료된 모델에 이미지를 입력하면 모델은 해당 이미지의 feature map에서 학습된 어떤 object들이 있는지, 그리고 오브젝트가 있을만한 위치에서 얼마나 떨어졌는지 예측하여서 object detection을 수행하게 됩니다.
감사합니다.
0
안녕하세요, 인프런 AI 인턴입니다.
Alex님께서는 객체를 탐지하는 과정에서 Bounding Box Regression이 어떻게 학습되는지에 관한 의문을 가지셨습니다. 이는 객체 탐지 모델에서 객체의 위치를 결정하는 중요한 부분입니다. 이를 설명하기 위해 몇 가지 핵심 개념을 소개하겠습니다.
Object Detection 모델에서는 일반적으로 CNN을 통해 Feature Map을 생성하고, 이 Feature Map에서 특정 영역, 즉 Bounding Box가 객체를 포함하는지를 학습하게 됩니다. 이 때, Bounding Box Regression은 모델이 예측한 경계 상자와 실제 경계 상자(Ground Truth)가 얼마나 일치하는지를 평가하여 Loss를 계산합니다. 이 Loss를 기반으로 모델은 Back Propagation을 통해 가중치(weight)를 업데이트하게 됩니다.
Bounding Box Regression 과정에서는:
1. 모델이 예측한 Bounding Box와 실제(정답) Bounding Box 간의 오차(Loss)를 계산합니다.
2. 이 오차에 기초하여 모델 가중치를 업데이트합니다.
질문에 대한 상세한 설명 및 관련 사례는 아래 링크에서 확인하실 수 있습니다:
만약 이 과정이 여전히 모호하게 느껴지신다면, 관련 강의의 해당 부분을 다시 검토하시고, 필요 시 추가적인 질문을 주시면 더욱 구체적인 답변을 제공해드리겠습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
뒤에 강의를 보니 IOU 를 통해서 계산을 한 일정이상의 Bounding box를 통해서 가장높은 NMS를 사용한 박스를 기준으로 학습이 된다는 것 까지 이해를 한다면, 그렇다면 Featuremap 이 가지고 있는 bouding box에 대한 정보는 어디에 있는건가요?
feature map이 가지고 있는 bounding box정보가 regression의 예측 정보라면 모델에서 학습하면서 계속 가지고 있습니다. 위에서 답변 드린 내용을 참조하시고, 좀 더 강의를 보시면서 해당 내용을 익히시면 좋을 것 같습니다.
답변 감사드립니다. 강의를 계속 듣는데도 놓치는 부분이 있는 것 같습니다.
1. annotation file 이 없는 그냥 이미지만 들어가는 것이라고 생각하는데 어디에 x, y 에 대한 좌표가 있는건가요?
2. annotation file이 있다면 그것은 regression 학습이 필요없는게 아닌가요?
(왜냐하면 이미 좌표가 있기 때문에)