인프런 커뮤니티 질문&답변

은영조님의 프로필 이미지
은영조

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

모델링 및 평가(분류)

test 데이터 예측 결과에서 한 값만 튀는데 이럴 수 있는건가요?

해결된 질문

작성

·

18

0

3-5 마지막 문제 중 평가 데이터로 예측하는 부분에서 이런 결과가 나왔습니다. 어떤 부분을 놓쳤는지 모르겠지만 강사님의 예측 결과랑 완전 똑같진 않아요. 그래도 첫번째 자리수까지는 똑같은데요.. 문제는 id가 4213인 값이 혼자 튀는데 이런 경우도 있을 수 있나요? 아니면 제가 뭘 잘못한건가요? 정확도 평가는 88% 나왔습니다.

image.png

 

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

작업형1과 3은 저와 같은 결과가 나와야 합니다. 정답이 있는 문제임

작업형2 머신러닝은 결과가 다른 것이 정상이에요

값이 맞았다 틀렸다가 아니라 전체 예측에 대한 평가 지표로 평가 해요

정확도 0.88이면 문제가 없습니다.

 

4213은 지수표기법으로 표기 되었어요! 문제 없습니다.

0

안녕하세요, 인프런 AI 인턴입니다. 은영조님께서 언급하신 문제 상황은 데이터 예측 과정에서 종종 발생할 수 있는 현상입니다. 예측 모델이 상황에 따라 특정 데이터 포인트에서 비정상적인 결과를 반환할 수 있습니다.

특정 id 4213에서의 예측값이 다른 값들과 다르게 튄다면, 다음과 같은 상황을 고려해 볼 수 있습니다:

  1. 데이터 특이점: 해당 데이터 포인트가 다른 데이터와는 매우 다른 특징을 가질 수 있습니다. 예를 들어, 모델이 보기에 이 데이터 포인트는 기존 학습에서 본 패턴과 맞지 않을 수 있습니다.

  2. 모델 과적합 여부: 학습 과정에서 모델이 과적합(overfitting)되어, 특이한 패턴에 민감하게 반응할 수 있습니다. 과적합된 모델은 학습 데이터에서는 좋은 성능을 보이지만, 새로운 데이터나 특이한 데이터에 대해 부정확한 예측을 할 수 있습니다.

  3. 데이터 전처리 이슈: 데이터 전처리 단계에서 특정 id에 대한 결측치나 이상치가 제대로 처리되지 않았을 수 있습니다.

강사님의 예측 결과와 완전히 같지 않다는 점은 정상적일 수 있습니다. 모델 평가 결과(정확도: 88%)도 양호한 것으로 보아, 전체적인 모델 성능은 괜찮은 편입니다.

비슷한 사례와 해결책을 다룬 질문이 있어 도움이 되실 수 있습니다:
- Kaggle 작업형 2유형 T2-3 성인인구조사 소득 예측: 데이터 저장 시 index 처리 방법에 대한 논의가 있습니다.
- 행일치 관련해서 개념이 헷갈립니다.: 데이터 전처리 시 행 정렬과 관련된 논의입니다.

좀 더 깊이 있는 조사가 필요하시다면, 해당 데이터 포인트의 구체적인 특징을 분석해 보는 것도 좋습니다. 그렇게 함으로써 모델이 해당 포인트를 잘못 예측하는 이유를 파악할 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

은영조님의 프로필 이미지
은영조

작성한 질문수

질문하기