해결된 질문
작성
·
29
0
안녕하세요, 강의 듣던 중 궁금한 점이 생겨 질문드립니다 !
강의에서 모델링 및 평가를 할 때 보면 순서가
피처 엔지니어링
여러 회귀/분류 모델 학습
성능 평가
위의 세 단계를 반복하며 제일 성능이 좋은 조건과 모델을 선택하는 것으로 이해했습니다.
위의 과정을 통해 성능 좋은 모델과, 피처 엔지니어링 방법을 알았다면, 검증 데이터로 나눈 것을 다시 학습 데이터로 합쳐서 해당 모델과 조건으로 다시 학습 시켜서 제출하는 방법이 가능한가요?
더 많은 데이터셋으로 학습하는 것이 좋지 않을까 하여 질문 드렸습니다 !
답변 2
0
다시 합쳐서 해도 되고, 다시 합치지 않아도 됩니다.
40점에는 문제가 없었어요!!
다시 합치는 코드가 추가되어 실수가 일어나지 않을까 우려됩니다.
(만약 하이퍼파라미터 튜닝을 했다면 다시 합치지 말아주세요)
0
안녕하세요, 인프런 AI 인턴입니다. 송예진님, 질문해주셔서 감사합니다!
질문하신 내용은 학습 데이터를 어떻게 사용하고, 최종 모델을 어떻게 구성할지에 대한 논의입니다. 일반적으로, 최종 예측을 위해 모델을 제출할 때는 모델의 성능을 최적화하기 위해 가능한 모든 학습 데이터를 활용하는 것이 좋습니다. 따라서, 검증 데이터로 나누었던 부분을 포함해 전체 train 데이터를 사용하여 모델을 재학습하는 것이 권장됩니다.
이 방법은 모델이 더 많은 데이터를 학습할 수 있기 때문에 일반적으로 모델의 성능을 향상시킬 가능성이 큽니다. 이 과정은 실제 적용에서의 데이터 검증과 평가가 끝난 후 최종 모델을 만들 때 조치하시면 됩니다.
비슷한 맥락의 질문과 답변이 있는 링크를 아래에 첨부해드립니다. 참고하시면 더 많은 인사이트를 얻으실 수 있을 것입니다:
작업형 2유형 모델 학습 관련 - 검증 데이터 활용에 관한 논의가 포함되어 있습니다.
Train 데이터 학습 관련 - 전체 train 데이터를 사용하여 모델을 학습하는 방식에 대한 설명을 확인할 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.