해결된 질문
작성
·
100
·
수정됨
0
안녕하세요!
2유형에서 궁금한 점이 있어 추가 질문드립니다.
age 컬럼 같은 경우 음수, 소숫점 등과 같이 명확한 이상치가 보일 경우 결측치를 채우기 전 이상치를 먼저 처리하는게 나을까요?
결측치를 평균 혹은 중앙 값으로 채운다고 가정 했을 때, 이상 값이 있으면 성능에 영향을 주지 않을까 싶어서 질문드립니다
만약 이상치가 많이 존재하고 이를 처리한다고 하면,
이상치 행을 아예 삭제해야하나요?
아니면 결측치와 마찬가지로 이상치를 제외한 평균, 중앙 값을 계산해서 값을 변경해주는게 좋을까요?
오늘도 감사합니다!
답변 1
0
결론: 문제에서 명시하지 않는다면, 이상치는 처리하지 않는 것으로 하시죠!
간혹 필기에서 학습한 IQR을 작업형2에 적용하는 수험생이 있는데 이건 많은 데이터를 삭제해 오히려 독이 되기도합니다.
고민의 흔적이 느껴집니다.
데이터마다 다르겠지만 이상치는 극 소수의 데이터라 데이터에서 제외 전이나 제외 후나 값의 큰차이는 없었어요! 명확한 이상치라면 제거하고 계산하는 것이 맞을 것 같아요!