Input Image Size에 대한 질문입니다

Question

안녕하세요 교수님 강의를 열심히 듣고 있는 학생입니다. 다른게 아니고 input image size를 왜 (224,224)를 쓰는지 궁금합니다. VGG도 그렇고 GoogleNet도 그렇고 왜 224를 쓰는 건가요? VGG논문을 다 읽어봤지만 그거에 대한 명확한 답을 찾지 못했습니다. 다양한 이미지를 crop하기 위해서 224로 설정했다는 답변을 본적은 있지만 왜 굳이 224인지는 이해하지 못했습니다. 혹시 말씀해주실 수 있을까요?

권 철민 · Answer

안녕하십니까,

224 가 추축컨데 AlexNet부터 그렇게 설정을 해와서 그런것 같습니다. 최초 이미지 사이즈는 최종으로 생기는 Feature map의 크기와 학습 시간 사이의 적절한 값을 찾는데, 아마도 AlexNet을 그 기준으로 224를 잡은것 같습니다.

가령 이미지가 너무 작으면 마지막에 만들어지는 feature map사이즈가 매우 작아지고, 또 너무 크면 학습에 너무 오랜 시간이 소모됩니다. 이런 기준을 가지고 AlexNet에서 224로 초기 이미지 사이즈를 설정하였고, 이후에 많은 모델들이 대부분 224 를 초기 이미지 사이즈로 정한것 같습니다.

감사합니다.

인프런 커뮤니티 질문&답변

Input Image Size에 대한 질문입니다