작업형2 모의문제3

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요
먼저 유사한 질문이 있었는지 검색해보세요

안녕하세요 선생님, 질문은 3가지 입니다.

1) 저는 문제를 딱 접했을때 분류모형을 써야할지, 예측모형을 써야할지 판가름을 정확하게 못하는 것 같습니다.

쉽게 판별하는 방법이 있을까요?

2) 이 문제의 경우 target인 output 컬럼을 train.head() 로 보면 0과 1로 구분되어있어서, 0 또는 1로 분류하는(분류모형) 것인가 생각했다가도 문제 맨위에서 참조해주는 예시에서

id,output 41,0.633 28,0.123 222,0.355

를 보면 output이 확률값으로 되어있어서 회귀모형을 사용해야하는 것인가? 라고 헷갈리곤합니다. 어디서 개념을 잡지 못하는 것일까요

3) 최종 예측을 할때

pd.DataFrame({'id':test_id, 'output':pred_proba[:,1]}).to_csv("00000.csv", index=False)

output에 pred_proba 를 쓰셨는데 참조예시에서 확률값을 OUTPUT에 담았기 때문에 pred_proba를 사용한 것일까요?

그렇다면 output에 pred 를 담는 경우는 어떤 경우인지요?

문제 또는 데이터 중 타겟을 보고 확인합니다.

분류모형(Classification Model): 이산적인 범주(카테고리)로 나누는 문제를 해결하기 위해 사용됩니다. 예를 들어, 이메일이 스팸인지 아닌지(이진 분류), 어떤 과일의 종류를 결정하는 문제(다중 분류) 등이 있습니다.
예측모형(Regression Model): 연속적인 값을 예측하는 데 사용됩니다. 예를 들어, 주택 가격, 온도, 매출액 등과 같이 특정 범위 내의 어떤 수치를 예측할 때 사용합니다.

평가 지표를 보고도 확인할 수 있습니다. (분류와 회귀는 평가 지표가 달라요)

output 컬럼이 0과 1로 구분되어 있다면, 이진분류 입니다.
output이 0과 1 사이의 확률 값으로 표현되어 있다면, 이는 분류 모형의 출력을 확률로 표현한 것일 수 있습니다.최종 출력이 레이블(0 또는 1)이 아니라 해당 레이블일 확률입니다. 확률을 물을 때는 평가지표가 roc-auc입니다.

분류 모델에서 pred_proba는 각 클래스에 대한 예측 확률을 나타냅니다. 만약 이진 분류 문제라면, 일반적으로 두 컬럼이 반환됩니다: 하나는 0 클래스(예: 음성 클래스)의 확률, 다른 하나는 1 클래스(예: 양성 클래스)의 확률입니다. 예시에서 output에 확률 값을 사용하는 경우, pred_proba[:, 1] (1 클래스의 확률)을 사용합니다.

pred 사용: pred는 보통 예측된 레이블을 나타냅니다. 즉, 각 샘플에 대해 가장 높은 확률을 가진 클래스 레이블을 직접 반환합니다. 이는 확률이 아니라 직접적인 분류 결과(0 또는 1)를 원할 때 사용됩니다.

따라서, 결과가 확률로 요구(평가지표가 roc-auc)된다면 pred_proba를, 레이블 자체가 필요하다면 pred를 사용합니다.

인프런 커뮤니티 질문&답변