작성한 질문수
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리
해결된 질문
작성
·
208
1
3-3 강의에서 age 컬럼 결측치를 평균값으로 채울 때
value값이 X_train age 평균값으로 채운다고 되어있습니다. 제 X_test 평균값으로 채우는게 아닌 X_train 평균값으로 채운 이유가 궁금합니다.
value = int(X_train['age'].mean()) X_train['age'] = X_train['age'].fillna(value) X_test['age'] = X_test['age'].fillna(value)
답변 1
2
데이터 누수(Data leakage)를 방지를 위해 그렇습니다.
데이터 누수는 train의 정보가 test 으로 부적절하게 전달되는 것을 의미해요~