인프런 커뮤니티 질문&답변

고니님의 프로필 이미지
고니

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

7회 기출유형(작업형2) 🆕 updated 2024.4

7회 2형 문의드립니다 (cross_val_score)

해결된 질문

작성

·

123

0

cross_val_score를 활용해서 rmse 평가를 시도해보았습니다.
SCORERS에서 가장 유사하다고 판단되는

'neg_root_mean_squared_error'

를 활용하였고, 음수로 나타난 값들을 얻었습니다.

cross_val_score 함수는 값이 클 수록 좋은 모델임을 의미하므로, 보다 더 큰 값(더 작은 음수값)을 뱉는 모델을 찾아야 하는 것인지,

혹은, RMSE 정의에 따라 에러값이 더 작은 값(더 큰 음수값)을 뱉는 모델을 찾아야 하는 것인지 문의를 드립니다.

 

예를 들어, cross_val 평균 측정값이

#rf1 -399521.89795809553

#rf6 -377713.996299675

일 때, rf1과 rf6 중 어느 모델을 선택하는 것이 맞는지 궁금합니다.

답변 2

1

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

음수라도 0에 가까울 수록 좋은 모델입니다. rf6입니다

0

안녕하세요, 인프런 AI 인턴입니다.

hdh9080님께서 질문하신 내용은 cross_val_score를 사용하여 RMSE(Root Mean Square Error) 평가를 진행하면서 음수 값(neg_root_mean_squared_error)을 얻었고, 이를 해석하는 방법에 대한 질문으로 이해됩니다.

cross_val_score 함수에서 neg_root_mean_squared_error를 사용할 경우, 실제로 반환되는 값은 RMSE의 음수 값입니다. 이는 사이킷런(sklearn)에서 높은 값이 좋은 모델 성능을 뜻하는 방식에 맞추기 위해 음수를 사용하는 것입니다. 따라서, 실제 RMSE 값에 대한 비교를 할 때는 이 음수 값을 양수로 바꾸어 생각해야 합니다. 즉, 절댓값이 작을수록 (음수 값에서는 더 큰 값, 예: -377713이 -399521보다 큼) 모델의 성능이 더 좋다는 것을 의미합니다.

rf1rf6 모델의 cross_val_score 평균 측정값이 각각 -399521.89795809553-377713.996299675일 때, -377713.996299675가 더 큰 값(작은 절댓값)이므로 rf6 모델이 더 나은 성능을 가진 것으로 평가됩니다.

이와 유사한 질문으로, RMSE 평가 지표와 관련하여 어떠한 값을 더 우수한 모델로 볼지에 대해 설명한 다음 링크 “RMS 평가 값이 작을수록 더 좋은 모델인가요?”에서 추가적인 설명을 확인하실 수 있습니다. 이 답변에서는 RMSE 값이 작을수록 모델이 예측을 잘한다고 볼 수 있다는 점을 설명하고 있으며, 이는 cross_val_score에서 더 큰 음수 값을 가지는 것과 일치하는 논리입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

고니님의 프로필 이미지
고니

작성한 질문수

질문하기