인프런 커뮤니티 질문&답변

lwhee4431님의 프로필 이미지
lwhee4431

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

데이터 전처리

3-3 데이터 전처리 질문

해결된 질문

작성

·

197

·

수정됨

0

  • age 컬럼과 hours.per.week 컬럼 결측치 채울 때

  • test 데이터 결측치를 train 데이터의 평균값으로 채우는 이유을 알 고 싶습니다.

  • train 데이터와 test데이터의 평균 값이 미세하기 차이가 있던데 train 데이터로 결측치를 채우는 게 맞는 걸까요? 아니면 시험에선 구분 없이 train 데이터로 채워도 문제가 없는 걸까요?

3-4 강의에서는 test데이터는 test데이터로 채우시는데 이유가 있을까요

답변 1

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

일반적으로 결측치가 있다면 train 데이터의 결과로 -> test데이터에 적용합니다.

다만 문제에서 test데이터의 평균, 최빈값 들을 사용하지 말라는 말이 없다면 성능을 높이기 위해 사용하기도 합니다. 이 때 데이터 누수가 발생한다고 흔히 이야기 해요~~!!

 

해당 건은 제가 통일을 하는 것이 좋았을텐데 혼란스럽게 했네요!! 보완해 볼게요!!

참고로 6회 이전까진 작업형2에서 결측치가 있는 데이터가 제공된 적이 없어 없습니다.

 

lwhee4431님의 프로필 이미지
lwhee4431

작성한 질문수

질문하기