인프런 커뮤니티 질문&답변

Grid님의 프로필 이미지
Grid

작성한 질문수

[비전공자 대환영] 캐글 데이터를 활용한 Optuna with MLFlow - 캐글다지기

파생변수 추가 및 EDA 2편

데이터 전처리

해결된 질문

작성

·

222

0

안녕하세요. 강의 22분 부터 Age 결측치를 평균값으로 바꿀때, Test 데이터에 Train데이터에서 구한 그룹별 평균값을 사용하지 않고 Test 데이터를 건드려서 대체하는 이유가 있을까요? 보통 대회에서는 Test 데이터를 건드리면 안되는 걸로 알고있고, 저런식으로 전처리를 하면 Train 데이터와 Test 데이터가 같은 모집단에서 나왔는데, 서로 다른 모집단에서 나왔다고 가정해버리는것 같아서 질문드립니다.

답변 1

0

Evan님의 프로필 이미지
Evan
지식공유자

안녕하세요. 좋은 질문 감사합니다.

우선 기본 원칙은 훈련 데이터와 테스트 데이터를 별개의 데이터로 가정하는 것이 맞습니다. 같은 모집단으로 바라보고 처리하게 되면, 모형 학습 시, Data Leakage에 빠질 가능성이 존재합니다.

또한, train 데이터의 평균값을 test 데이터에 적용하는 방법이 실제 대회에서는 맞습니다. 이 부분은 제가 작업하면서 오류가 있었네요. 수정해서 올리도록 하겠습니다.

관련해서 좋은 디스커션이 있으니 확인 바랍니다. https://www.kaggle.com/c/titanic/discussion/177536

Grid님의 프로필 이미지
Grid

작성한 질문수

질문하기