해결된 질문
작성
·
128
답변 1
0
제가 혼용해 사용해서 혼란이 있었네요!
일반적으로는 훈련 데이터(X_train
)의 통계를 사용해서 결측치를 채우는 것이 맞아요.
모델이 훈련된 데이터의 통계적 특성을 테스트 데이터에서도 일관되게 적용할 수 있도록 하기 때문입니다.
예를 들어, 나이나 주당 근무시간과 같은 연속형 변수는 X_train
의 평균을 사용해서 결측치를 채우는 것이 일반적입니다.
하지만 테스트 데이터(X_test
)의 통계를 사용해서 결측치를 채울 수도 있습니다.
결론적으로, 어느 쪽이든 머신러닝 모델의 성능이 향상되는 쪽을 선택하는 것이 중요해요. 뒤에서 학습할 평가지표를 통해 모델 성능으로 판단하면 됩니다.