Input Image Size에 대한 질문입니다

딥러닝 CNN 완벽 가이드 - Fundamental 편

GoogLeNet(Inception) 구조 상세 및 구현 코드 이해

22.01.16 19:07 작성

안녕하세요 교수님 강의를 열심히 듣고 있는 학생입니다.

다른게 아니고 input image size를 왜 (224,224)를 쓰는지 궁금합니다. VGG도 그렇고 GoogleNet도 그렇고 왜 224를 쓰는 건가요?

VGG논문을 다 읽어봤지만 그거에 대한 명확한 답을 찾지 못했습니다. 다양한 이미지를 crop하기 위해서 224로 설정했다는 답변을 본적은 있지만 왜 굳이 224인지는 이해하지 못했습니다. 혹시 말씀해주실 수 있을까요?

딥러닝 keras 머신러닝 배워볼래요? tensorflow kaggle cnn

답변 1

권 철민

지식공유자

2022. 01. 17. 21:22

안녕하십니까,

224 가 추축컨데 AlexNet부터 그렇게 설정을 해와서 그런것 같습니다. 최초 이미지 사이즈는 최종으로 생기는 Feature map의 크기와 학습 시간 사이의 적절한 값을 찾는데, 아마도 AlexNet을 그 기준으로 224를 잡은것 같습니다.

가령 이미지가 너무 작으면 마지막에 만들어지는 feature map사이즈가 매우 작아지고, 또 너무 크면 학습에 너무 오랜 시간이 소모됩니다. 이런 기준을 가지고 AlexNet에서 224로 초기 이미지 사이즈를 설정하였고, 이후에 많은 모델들이 대부분 224 를 초기 이미지 사이즈로 정한것 같습니다.

감사합니다.

gusehd1113

질문자

2022. 02. 03. 00:15

좋은 답변 감사드립니다!!

인프런 커뮤니티 질문&답변

Input Image Size에 대한 질문입니다