데이터 세트에 대한 기능 부분 질문입니다.

Question

안녕하세요.. 데이터세트에 대한 질문이 있습니다.

강의에서 train, validation으로 테이터 세트를 나누어서 진행하는 부분에서, 훈련용 데이터세트는 당연히 훈련 전용일것이고,

Validation의 경우 epoch 를 반복하면서 모델 검정 간격을 정해주면 그때 사용 하는것 같은데.. 여기서 질문이 있습니다.

Validation에서 객체를 잘못 구분할 경우 이것이 피드백이 되어 모델 훈련에 반영이 되는것인지요? 아니면 단순하게 mAP, mAR 만 확인하는 것인지요?
만약 mAP, mAR 을 확인하는 것이라면 시간을 절약하기 위해서 validation 데이터 세트에 대한 검정간격을 자주 하지 않아도 되지 않을까 싶은데 이러한 판단이 맞는 것인지 궁급합니다.
만약 반대로 validation. 데이터 세트에 대한 검정자체가 모델 훈련에 직접적으로 피이드백을 해서 훈련 결과에 개선효과가 있다면 검정을 자주 하는 것이 좋은것인지요??

이와는 별개로 GPU 성능에 따라서 동일한 데이터세트와 동일한 조건에 대한 학습 결과가 달라질수 있는지요??? 만약 그렇다면 GPU 성능을 높이고 batch size를 많이 할수록 학습 결과가 개선이 되는 것으로 이해하는 것이 맞는지요??

항상 좋은 강의 고맙습니다.

권 철민 · Answer

안녕하십니까,

1, 2, 3번에 대한 답변을 한꺼번에 드리면,

=> 네, 보통은 피드백이 되어서 모델 훈련에 반영이 됩니다. 주로 learning rate를 동적으로 변경하면서 학습을 시킵니다.

보통은 validation 성능 평가(말씀하신 검정)은 1회 epochs 학습 시마다 수행합니다. 하지만 learning rate 변경을 적용하는 주기를 변경할 수는 있습니다. 10회 연속 validation loss가 증가한다던가... 하지만 이 주기의 변경이 모델 성능에 어떻게 영향을 미칠 지는 알 수 없습니다. 대략적으로 몇회 연속 loss가 증가하면 learning rate를 1/10 으로 감소시킨다던가... 이런 부분은 다양하게 적용해보고, 제일 좋은 주기를 결정합니다.

그리고 아래 질문,

이와는 별개로 GPU 성능에 따라서 동일한 데이터세트와 동일한 조건에 대한 학습 결과가 달라질수 있는지요??? 만약 그렇다면 GPU 성능을 높이고 batch size를 많이 할수록 학습 결과가 개선이 되는 것으로 이해하는 것이 맞는지요??

=> 동일한 조건이면 batch size도 동일하다는 의미 인데, 단순히 batch size의 변경이 학습 결과 개선에 어떻게 영향을 미치는 지를 여쭤보시는 건지요? 만일 그렇다면, 일반적으로 batch size 크기를 너무 크게 하면 성능이 조~오금 떨어집니다. 그렇다고 batch size를 1에 너무 가깝게 해도 성능 향상이 좋지 않습니다. 어느 정도 크기인지는 이 역시 경험적으로 판단이 필요하지만, 보통은 12 미만 정도가 조금이라도 성능이 좋았던것 같습니다.

감사합니다.

인프런 커뮤니티 질문&답변

데이터 세트에 대한 기능 부분 질문입니다.