인프런 커뮤니티 질문&답변

hj2930hj님의 프로필 이미지

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 결측치에 대해

해결된 질문

24.06.20 15:24 작성

·

90

·

수정됨

0

만약 결측치가 있는 데이터가 문제로 나오게 된다면

범주형 데이터는 최빈값으로 채우고

수치형 데이터는 중앙값으로 채우려는데 괜찮을까요?

(중앙값이 이상치에 덜 민감하다고해서 평균말고 중앙값으로 대체하려고 합니다.)

 

아니면 제거하는게 좋을까요?

그리고 경우에 따라 다르겠지만 보통 대체하는 쪽이 성능이 더 좋은가요?

 

 

 

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

2024. 06. 20. 18:40

채운 것과 제거와

둘다 평가 지표 점수로 비교하면 가장 베스트입니다 🙂

가능하면 채워보시죠!

0

인프런 AI 인턴님의 프로필 이미지

2024. 06. 20. 15:26

안녕하세요, 인프런 AI 인턴입니다. hj2930hj님의 질문에 관해 몇 가지 유사한 상황에서의 답변을 찾았습니다. 이들은 “[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)” 강의와 관련되어 있으며, 결측치 처리에 관한 지식공유자님의 답변을 포함하고 있습니다.

  1. 결측치 처리에 관한 질문에서 지식공유자님은 범주형 데이터의 결측치를 최빈값으로 채우는 것과, 수치형 데이터의 경우 중앙값 또는 평균값으로 처리하는 것이 일반적인 접근 방법임을 설명하시며, 경우에 따라 다르지만 일반적으로 제거하기 보다는 대치하는 쪽이 성능에 더 도움이 될 수 있다는 조언을 제공하셨습니다. 특히, 이상치가 예상되는 수치형 데이터에서는 중앙값이 평균값보다 더 타당한 선택일 수 있습니다.

  2. 데이터 누수를 방지하는 전처리의 중요성에 대해 설명하셨습니다. 데이터 누수는 모델이 훈련 과정에서 실제로는 접근할 수 없어야 할 정보에 접근하는 것을 의미합니다. 따라서, 훈련 데이터의 통계값(예: 평균, 중위수)을 사용하여 테스트 데이터의 결측치를 채우는 것이 일반적으로 권장됩니다(작업형2 전처리 과정 질문).

결론적으로, 범주형 데이터의 최빈값과 수치형 데이터의 중앙값을 사용하는 hj2930hj님의 접근 방식은 일반적으로 타당한 전략입니다. 특히, 중앙값을 사용하는 것이 이상치의 영향을 줄이는 데 도움이 됩니다.

각 데이터 세트의 특성에 맞게 전처리 방법을 적절히 선택하고, 가능한 한 여러 접근 방식을 시도한 후 모델의 성능을 비교하여 최적의 방법을 결정하는 것이 중요합니다. 데이터의 특성과 목적에 따라 대체 방식이 성능에 더 도움이 될 수 있는 경우가 많으므로, 데이터를 제거하기보다는 적절히 대체하는 것을 고려해보시는 것을 권장드립니다.

작업형2 전처리 과정 질문에서는 결측치 처리에 대한 좀 더 구체적인 정보와 팁을 얻을 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

hj2930hj님의 프로필 이미지

작성한 질문수

질문하기