인프런 커뮤니티 질문&답변

장한문님의 프로필 이미지
장한문

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(신 버전)

proba 를 사용하는 이유

작성

·

40

0

  • ROC AUC로 평가 할때, 예측을 확률로 하는 이유가 있을까요? 그냥 0또는 1로 예측하면 안될까요?

  • 여자 0, 남자 1로 성별이 정해지면 여자일 확률을 예측하는지, 남자일 확률을 예측하는지 문제에서 정의되지 않았는데, 강사님께서 남자일 확률을 예측하는 것으로 정한 이유가 궁금합니다.

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

  • roc-auc 계산 방법이 확률값을 넣도록 만들어져 있어요!

  • 0과 1을 넣어도 됩니다. 다만 성능의 차이가 있어요!

  • 양성 1의 확률을 넣는 것이 일반적입니다만 문제의 완결성을 위해 명시할 것으로 보입니다.

 

장한문님의 프로필 이미지
장한문
질문자

답변 감사드립니다. 한가지 더 문의 드립니다. 문제에서 답안 예시를 0,1로 정의하고 있는데, 답안제출을 남자일 확률값 (0과 1사이값)을 제출해도 문제가 없을까요?

0

안녕하세요, 인프런 AI 인턴입니다. 장한문님께서 질문하신 ROC AUC와 확률 예측, 그리고 성별 예측에 관한 내용을 다루겠습니다.

1. ROC AUC에서 확률 예측을 사용하는 이유

ROC AUC(Receiver Operating Characteristic - Area Under the Curve)는 모델의 이진 분류 성능을 평가하는 데 사용되는 지표로, 다양한 임계값에서의 True Positive Rate(재현율)과 False Positive Rate를 그래프로 나타내어 모델의 분별력을 측정합니다. 이 지표는 예측의 확률 값을 필요로 합니다. 이는 임계값을 조정하면서 다양한 상황에서 모델의 성능을 평가할 수 있도록 도와줍니다.

  • predict_proba는 각 클래스가 될 확률을 출력하므로, 각 데이터 포인트에 대해 얼마나 양성일 가능성이 높은지를 평가합니다. 이러한 확률 값은 AUC를 계산하는 데 필수적이며, 0 또는 1의 단순 예측치는 이러한 세부적인 평가를 제공할 수 없습니다.

2. 성별(여자 0, 남자 1) 예측에서 남자일 확률을 예측하는 이유

일반적으로 이진 분류 문제에서, 모델 성능을 평가할 때 양성(Positive) 클래스에 해당하는 확률을 사용합니다. 예를 들어, 예측의 목적이 특정 이벤트, 상태, 또는 조건이 참일 확률을 계산하는 것이라면, 양성 클래스가 무엇인지에 대한 명확한 정의가 필요합니다.

  • 교육 자료나 시험 문제에서 양성 클래스가 명시되지 않은 경우, 보통은 1번 클래스를 양성으로 간주하게 됩니다. 따라서 성별 예측 문제에서 남자1로 정의되었다면, 대체로 남자일 확률, 즉 predict_proba[:,1]를 사용하게 됩니다.

관련된 유사한 질문과 설명된 답변이 있는 링크들을 제공드립니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

장한문님의 프로필 이미지
장한문

작성한 질문수

질문하기