인프런 커뮤니티 질문&답변

가보자고님의 프로필 이미지
가보자고

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

[예시문제 작업형2] EDA 중 이상치 처리

해결된 질문

작성

·

354

·

수정됨

0

안녕하세요.

강의 잘 듣고 있습니다.

예시문제 작업형2 풀면서

X_train.describe() 기초통계량 볼 때(3:56)

총 구매액, 최대 구매액의 최소값이 음수여서...

이상치로 판단하고 금액이 <0인 행은 drop..처리하고 했는데 괜찮은 걸까요?

괜찮다면 결측치처리를 X_train, y_train 동시에 해주는 것처럼 결측치도 두 데이터에 모두 해줘야하는거죠?

캡처.PNG

답변 1

1

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

  1. test데이터에도 음수인 값이 있는지 확인이 필요해요! 만약 있다면 해당 도메인에서 이런 데이터가 나오는 이유가 있을 수도 있기에 제거는 살짝 고민을 해봐야 합니다.

  2. 제가 추천하는 방식은 최소한의 전처리로 베이스라인(기초) 모델을 만들고 평가 점수를 기록한 다음
    이상치 처리 등의 전처리 후 결과를 비교하는 것이 좋습니다. 모든 전처리의 기준을 베이스라인을 기준과 비교하는 방식을 추천해요!

 

가보자고님의 프로필 이미지
가보자고
질문자

감사합니다!

가보자고님의 프로필 이미지
가보자고

작성한 질문수

질문하기