인프런 커뮤니티 질문&답변

dm1517님의 프로필 이미지
dm1517

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

데이터 전처리

3-3 age 컬럼 평균값으로 채울 때 질문

해결된 질문

작성

·

208

1

  • 3-3 강의에서 age 컬럼 결측치를 평균값으로 채울 때

     

    value값이 X_train age 평균값으로 채운다고 되어있습니다. 제 X_test 평균값으로 채우는게 아닌 X_train 평균값으로 채운 이유가 궁금합니다.

  •  

    value = int(X_train['age'].mean())
    X_train['age'] = X_train['age'].fillna(value)
    X_test['age'] = X_test['age'].fillna(value)

     

  •  

답변 1

2

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

데이터 누수(Data leakage)를 방지를 위해 그렇습니다.

데이터 누수는 train의 정보가 test 으로 부적절하게 전달되는 것을 의미해요~

dm1517님의 프로필 이미지
dm1517

작성한 질문수

질문하기