BB regression 관련(wrt Retinanet)

[개정판] 딥러닝 컴퓨터 비전 완벽 가이드

RetinaNet의 이해 - Feature Pyramid Network

21.03.21 20:09 작성

144

안녕하세요 선생님, 질문이 있습니다.

Retinanet paper 보면서 공부중인데요,

앵커박스 이용한 좌표값 학습 부분에서,

아래와 같이 오프셋을 출력한다고 하는데,

(맨 밑 스크린샷)

그렇다는 말은

a. t가 gt와 iou가 0.7 넘는 앵커박스와의 xywh오프셋(학습시 사용하는 고정값)

b. t^ 가 모델이 예측한 값(처음은 랜덤값)

이므로 학습시에 t - t^의 차이를 regression하는 것으로 이해했는데 맞나요?

이게 맞다면 학습이 끝나 infernence시에는 나온 오프셋에 해당 앵커박스 좌표값을 반영해서 bb 예측값을 얻게 되는 건가요?

상기와 같이 학습한다면 학습시 앵커박스 좌표값이 자연스럽게 라벨에 녹아들어있어서 이렇게 이해하고 넘어가려고 하는데,,

확인 부탁드리겠습니다!

tensorflow 컴퓨터 비전 keras python 딥러닝 머신러닝 배워볼래요?

답변 2

좋은 가자미

질문자

2021. 03. 22. 22:47

답변감사드립니다!

권 철민

지식공유자

2021. 03. 22. 22:23

안녕하십니까,

a. t가 gt와 iou가 0.7 넘는 앵커박스와의 xywh오프셋(학습시 사용하는 고정값)

b. t^ 가 모델이 예측한 값(처음은 랜덤값)

이므로 학습시에 t - t^의 차이를 regression하는 것으로 이해했는데 맞나요?

=> 거의 맞습니다. 먼저 iou 0.7는 가변적입니다. Retinanet Default는 0.5 입니다. 학습시에 t - t^ 만큼을 Smooth L1 Loss에 기반하여 regression합니다.

2. 상기와 같이 학습한다면 학습시 앵커박스 좌표값이 자연스럽게 라벨에 녹아들어있어서 이렇게 이해하고

=> 음, 자연스럽게 라벨에 녹아들어 이해하지 못했습니다. anchor box classification은 focal loss로 별도로 진행합니다. 이걸 모르셔서 질문하신건 아닌것 같습니다만 암튼 classification은 bb box regression과 별도로 진행합니다.

감사합니다.

인프런 커뮤니티 질문&답변

BB regression 관련(wrt Retinanet)