인프런 커뮤니티 질문&답변

jmeom님의 프로필 이미지
jmeom

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

피처 엔지니어링

데이터 결측치 채울 때 기준데이터

해결된 질문

작성

·

117

0

피처 엔지니어링 강의 시작부분 데이터 전처리 로직 관련 질문입니다.

데이터전처리 X_test 결측치를 채울 때 클래스, 국가의 경우 X_test의 최빈값을 사용하고, 나이나 주당 근무시간은 X_train 평균을 사용하는데 어떤건 X_train을 사용하고, 어떤건 X_test를 사용하는 이유가 있는걸까요???

답변 1

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

제가 혼용해 사용해서 혼란이 있었네요!

일반적으로는 훈련 데이터(X_train)의 통계를 사용해서 결측치를 채우는 것이 맞아요.
모델이 훈련된 데이터의 통계적 특성을 테스트 데이터에서도 일관되게 적용할 수 있도록 하기 때문입니다.
예를 들어, 나이나 주당 근무시간과 같은 연속형 변수는 X_train의 평균을 사용해서 결측치를 채우는 것이 일반적입니다.

하지만 테스트 데이터(X_test)의 통계를 사용해서 결측치를 채울 수도 있습니다.

결론적으로, 어느 쪽이든 머신러닝 모델의 성능이 향상되는 쪽을 선택하는 것이 중요해요. 뒤에서 학습할 평가지표를 통해 모델 성능으로 판단하면 됩니다.

jmeom님의 프로필 이미지
jmeom

작성한 질문수

질문하기