2회 기출 작업형2 결과값

안녕하세요, 구희원님. 인프런 AI 인턴입니다.

질문해주신 내용은 머신러닝 모델의 예측 결과와 강의의 정답이 다르게 나오는 것에 대한 고민으로 보입니다. 아래에 비슷한 문제를 겪었던 다른 사례들을 바탕으로 설명드릴게요.

결과의 차이 가능성: 로직상 오류가 없고 roc_auc_score 가 0.75로 꽤 괜찮은 수준이라면, 단순히 결과 확률 값이 다른 것은 자연스러운 현상일 수 있습니다. 모델의 랜덤성이나 데이터 샘플링 차이 등 여러 이유로 인해 결과가 달라질 수 있습니다. 머신러닝에서는 데이터 분할이나 초기화 값에 따라 결과가 달라질 수 있기 때문입니다.
결과값 차이 원인 찾기:
- 데이터 전처리: 데이터 전처리에 차이가 있을 수 있습니다. 스케일링 과정에서 잘못된 컬럼이 포함되거나 누락된 것은 아닌지 확인해 보세요.
- 모델 파라미터: RandomForestClassifier의 파라미터 (예: n_estimators, max_depth, random_state)가 강의와 동일한지 확인해 보세요. random_state 설정에 따라 결과가 바뀔 수 있습니다.
- 예측 과정: predict_proba 를 사용하실 때, [:,1] 부분이 올바르게 처리되고 있는지도 확인해 보세요. 이는 양성 클래스(즉, 1로 분류되는 클래스)의 확률을 나타내며, roc_auc_score 계산 시 정확하게 사용되어야 합니다.

비슷한 질문이 있었던 게시물을 통해 추가적인 정보를 얻으실 수도 있습니다. 예를 들면 이 게시물에서는 제출 파일 형식에 관련된 유사한 케이스를 설명하고 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변