결측치 처리 관련(에러메시지 마주하기 영상, 교재 작업형2 회귀)

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

해결된 질문

작성

수정됨

섹션19 강의 중 에러메세지와 마주하기 영상에서

에러3 : 결측치가 있는 경우, 모델 학습시 에러가 나므로 결측치를 처리해야 한다고 나와있습니다만,

코드를 실행해보니 결측치가 있는 상태에서도 에러가 나지 않고 학습이 되었습니다

영상을 제작하셨을 당시와 지금의 버전 차이로 인해 에러가 나지 않는 것 같아서

교재 작업형2 ch4 회귀 파트의 코드를 이용해 비교 확인해보았는데요,

교재의 코드에서 수치형 데이터(Item_Weight)의 결측치를 채우지 않고 모델을 실행했을 때

선형회귀 모델에서는 결측치로 인한 에러가 발생하였고,

랜덤포레스트, lightgbm에서는 에러가 발생하지 않았습니다.

저는 랜덤포레스트, lightgbm 모델을 사용하려고 하는데,

이러한 경우에도 전처리를 하는게 더 좋은 방법인지 문의드립니다.

평가지표로 확인을 해보기는 하겠지만

모델 학습에 에러가 나는게 아니라면

없는 값은 없는 대로 학습하는게 더 나을 것 같다는 생각이 들어서요.

감사합니다

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

퇴근후딴짓

지식공유자

지난 회차까지 시험환경의 버전이 낮아

처리가 반드시 필요했는데 이번 9회차 부터는 버전이 업데이트 되면서

에러가 나지 않는다면 전처리가 필요 없을 것 같습니다.

(물론 평가지표로 검증해보면 더 좋겠지요)

참고로 아직 작업형2에서 결측치가 있는 문제가 나온적은 없습니다. (2~8회 기준)

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 위잉님께서 모델 학습과 결측치 처리에 관한 질문을 주셨군요. 이 주제는 머신러닝 모델 활용 시 굉장히 중요한 부분입니다.

결측치와 모델

결측치는 데이터를 왜곡시킬 수 있는 요소로, 대부분의 머신러닝 모델 학습 전 반드시 처리해야 합니다. 그러나, 랜덤포레스트와 LightGBM과 같은 트리 기반 모델은 일부 결측치를 자동으로 처리할 수 있는 특성 때문에 학습이 가능할 수 있지만, 이는 최적의 성능을 보장하지 않습니다.

선형 회귀 계열 모델은 결측치를 허용하지 않아 반드시 이를 채워 넣어야만 모델 학습이 가능합니다.
반면에, 트리 기반 모델(랜덤포레스트, LightGBM 등)은 결측치가 일부 있어도 학습이 가능하지만, 결측치를 채운 후 학습하는 것이 일반적으로 더 나은 성능을 제공합니다.

트리 기반 모델이 결측치를 다룰 수 있다고 해도, 결측치를 채우지 않으면 데이터의 불균형이나 누락된 정보로 인해 성능이 저하될 수 있습니다. 따라서 일반적으로 결측치를 적절한 방식으로 처리한 후 모델을 훈련하는 것이 권장됩니다.

결측치 처리 권장 사항

평균, 중앙값, 최빈값 대체: 결측치를 데이터의 평균이나 중앙값 등으로 채우는 방법은 간단하고 자주 사용되는 전략입니다.
모델 기반 대체: KNN이나 회귀 모델을 통해 결측치를 예측하여 채울 수도 있습니다.
삭제: 결측치가 너무 많은 경우, 해당 샘플을 삭제할 수도 있습니다. 하지만 이는 데이터 손실을 초래할 수 있다는 단점이 있습니다.

추가 참고 자료

기존 유사한 질문과 관련된 답변을 확인하시면 보다 완전한 이해에 도움이 될 것입니다:

기출 문제 작업형 2에서는 결측치에 대한 일반적인 처리 방법과 이론적 배경에 대해 다루고 있습니다.
예시문제 작업형 2 (구버전)에서 결측치 및 이상치 처리에 대한 일반적인 접근법과 중요성에 대해 설명하고 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변