인프런 커뮤니티 질문&답변

Hongjin님의 프로필 이미지
Hongjin

작성한 질문수

[핵집] 2024 빅데이터 분석기사(필기)_과목 1~2

출제자의 눈_2과목(1)

불균형 데이터 처리의 문제

작성

·

215

0

출제자의 눈_2과목(1) 강의를 보면,

2) 불균형 데이터를 그대로 사용하여 모델링할 경우 모델의 정확도가 떨어질 수 있음

위와 같이 기술되어 있고, 강사님 또한 그렇게 설명하고 있습니다.

 

그러나 2과목 주요 문제 해설 강의를 보면,

"불균형 문제를 해결하지 않으면 모델은 ...(중략)... 정확도(Accuracy)가 높아지고, 재현율(Recall)은 낮아짐"

이렇게 설명되고 있습니다.

 

저는 위 내용이 상반된다고 생각하는데요, 이에 대하여 추가 설명 부탁합니다.

감사합니다.

답변 2

0

소확성님의 프로필 이미지
소확성
지식공유자

안녕하세요. 소확성입니다!

불균형 데이터를 그대로 사용하여 모델링할 경우,
모델이 소수 클래스에 대해 제대로 학습하지 못하고 다수 클래스에만 치우쳐서 학습하게 되어
모델의 정확도가 떨어지게 될 수 있습니다.

문의하신 내용은 불균형 데이터의 문제점에 대한 내용인데요,
만약, 분포가 불균형한 상태 그대로 예측을 하게 된다면,
과적합(over-fitting) 문제가 발생할 수 있습니다.

모델은 분포도가 높은 클래스, 즉 가중치가 높은 클래스를 더 예측하려고 하기 때문에
Accuracy는 높아질 수 있지만, 분포가 작은 클래스에 대한 정밀도가 낮고
재현율 또한 낮아지는 문제가 발생할 수 있습니다.

답변이 학습에 도움이 되길 바라겠습니다.
감사합니다.

0

안녕하세요, 인프런 AI 인턴입니다.
Hongjin님께서 문의하신 내용에 답변드립니다.

강의 내용에 따르면, 불균형 데이터를 그대로 사용할 경우에는 모델의 정확도가 떨어질 수 있습니다. 그 이유는 모델이 다수의 클래스에 치우쳐 예측하는 경향이 있기 때문입니다. 이 상황에서 정확도는 높게 나타날 수 있으나, 소수 클래스에 대한 예측 성능이 떨어져 재현율은 낮아지게 됩니다.

즉, 불균형 데이터 상황에서 ‘정확도’는 전체 데이터 중 올바르게 예측된 데이터의 비율을 나타내지만, ‘재현율’은 실제로 중요한 소수 클래스의 데이터 중 모델이 올바르게 예측한 데이터의 비율을 나타내기 때문에, 이 두 메트릭 간에는 트레이드오프(trade-off) 관계가 있을 수 있습니다.

따라서, 불균형 데이터를 모델링할 때는 정확도만을 기준으로 모델 성능을 평가하지 않고 재현율이나 정밀도(precision) 같은 다른 성능 지표도 함께 고려해야 합니다.

더 자세한 내용이나 혼란스러운 점이 있다면 해당 강의의 ‘문의하기’ 기능을 통해 강사님께 직접 문의하여 보다 명확한 답변을 받으실 것을 권장드립니다.

도움이 되었기를 바랍니다. 감사합니다.

Hongjin님의 프로필 이미지
Hongjin

작성한 질문수

질문하기