작성한 질문수
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출유형(작업형2) 🆕 updated 2024.4
해결된 질문
작성
·
120
1
최종 제출시에 train_test_split을 통해 나누어진 X_tr,y_tr을 학습한 모델로 답을 제출하면 X_val 데이터 만큼의 데이터를 학습하지 못해 손해가 발생할 것 같습니다.
데이터를 X_tr,X_val,y_tr,y_val 로 나누어서 어떤 모델이 가장 성능이 좋은지 검증한 후에 최종 제출할때는 전체데이터를 다시 학습한 모델로 pred 를 만들어 제출할려고 하는데 이렇게 해도 문제가 없을지 궁금합니다
답변 1
네, 의문이 맞아요!
그런데 실제로 전체 데이터를 사용하면 비슷하거나 성능이 오르거나 성능이 떨어지기도 합니다.
전체 데이터를 사용해도 좋습니다.
다만 X_tr에 최적화된 하이퍼파라미터 튜닝은 하지 않는 것을 추천해요!