묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결실전 데이터 사이언스 Part2. 데이터 전처리
결측값 처리
안녕하세요. 실전 데이터 사이언스 Part2. 데이터 전처리 학습을 잘듣고 있는 학생입니다. 강의를 너무 잘듣고 있고, "결측치 처리" 관련해서 질문이 있어서 글을 남기게 되었습니다. 특정 컬럼의 결측값 비율이 50%를 넘고 있습니다. 하지만 이 컬럼과 label값과의 상관관계를 보면 0.45 정도 되기 때문에 중요한 컬럼이란 생각을 하고 있습니다. 이런 경우, 그래도 결측값이 너무 많기 때문에 제거하는게 좋은지 아니면, 평균값 등 다른값으로 대체하는게 좋을지 조언을 구할 수 있을까요? 감사합니다.
-
미해결
R 결측치 NA 제거
NA가 약 10%인 열에서만 NA 를 제거하는 것은 어떻게 하나요? 데이터프레임의 열이 100개인데, 그 중 NA가 10% 안되는 열이 60개 정도 되는데, 두 단계로 if 문을 써봐도 계속 에러나서 여쭤봅니다..
-
미해결캐글 Advanced 머신러닝 실전 박치기
train, test 병합 후 결측치 또는 이상치 처리 관련문의
안녕하세요 강사님 train, test 세트를 병합 후, 결측치 또는 이상치 처리 때 문의 드릴게 있습니다.코딩 프로세스를 보면,train,test 병합 후, TARGET isnull 인경우 app_test 로 설정하하는데만약 이 과정 전, 결측치 처리 하는데서 결측치를 처리하기 위해, dropna를 쓰게 된다면,최종적으로 test 세트 row를 제거 할 수도 있습니다(test 세트에 null이 포함 된 경우) 이는 즉, 정말 예측해야 하는 test 세트의 개수와 맞지 않는다는 뜻입니다.또는, train, test 병합 전, train 데이터에만 outlier 를 제거한 후에 test와 병합 한다면, test에는 outlier가 제거되지 않은 데이터들이 있을 수 있기 때문에,문제가 있을 것 같습니다. 강의에서는 fillna(-999) 를 하기 때문에 문제가 없다지만, 실제로 결측치나 아웃라이어는 어떻게 처리해야 하나요?