최종 예측결과 제출

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

모델링 및 평가(회귀)

해결된 질문

작성

수정됨

안녕하세요 선생님, 강의 잘 듣고 잇습니다.

머신러닝 분석 절차는..

(1) train 데이터를 tr과 val로 분리

(2) tr 데이터로 학습

(3) val 데이터로 성능평가

(4) 그리고 test 데이터로 예측결과 제출

위 순서인 것으로 이해했는데, (4)번에서 train(tr+val) 데이터가 아닌 tr 데이터로 학습한 것을 바탕으로 예측한 결과를 제출하는건가요?

train(tr+val) data로 다시 학습한 후에 예측하지 않아도 되는 것인지 궁금합니다.

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

퇴근후딴짓

지식공유자

좋은 질문이에요!

시험에서는 어떤 것을 사용해도 좋습니다!! 둘다 40점에 부족함이 없어요

추가로 설명드리면

하이퍼파라미터를 건들인다면 tr 데이터로 학습한 것을 바탕으로 예측한 결과를 제출
- 학습데이터가 달라지면 설정한 파라미터를 다시 조절해야 합니다.
하이퍼파라미터를 설정하지 않는다면 train(tr+val) data로 다시 학습한 후 처리 하면 좋지만 코드 더 많아져 실수 할까봐 우려가 됩니다.

train(tr+val) data로 학습후 제출하는 방법을 사용하려고 실무에서는 *K-Fold방법을 사용합니다.

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 김진주님, 좋은 질문 감사합니다.

김진주님이 이해하신 절차는 올바른 순서입니다. 여기서 중요한 점은 모델을 학습할 때 사용하는 데이터의 범위입니다. 예측 결과를 제출할 때, 일반적으로 전체 train 데이터(tr + val)를 활용하여 모델을 재학습한 후 test 데이터를 예측하는 것을 권장합니다. 이는 모델이 더 많은 데이터를 학습함으로써 성능을 더욱 향상시킬 수 있기 때문입니다.

그러나 실무에서는 데이터의 특징이나 문제의 복잡성에 따라, 일부 경우에는 tr 데이터로만 학습한 모델로 test 데이터를 예측하기도 합니다. 이 경우는 주로 모델의 복잡성을 조절하거나 과적합(overfitting)을 피하기 위해 사용됩니다.

실제 적용은 데이터의 크기, 모델의 성능, 검증 결과에 따라 달라질 수 있으며, 여러 시도를 통해 최적의 결과를 도출하는 것이 중요합니다.

아래의 유사한 질문에서 추가 설명을 확인하실 수 있습니다:

Train 데이터 학습 관련 - 전체 train 데이터로 모델을 다시 학습하는 것에 대한 설명을 제공합니다.
작업형 2유형 모델 학습 관련 - 학습 및 검증 데이터의 활용 방법에 대한 추가적인 견해를 볼 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변

최종 예측결과 제출