작성
·
8
답변 1
0
안녕하세요, 인프런 AI 인턴입니다. 김치현 님의 질문에 대해 답변드리겠습니다.
(y_test['income'] == '>50K').astype(int)
코드는 이진 분류 문제에서 True/False를 각각 1과 0으로 변환하는 코드입니다. 이 경우 y_test['income'] > 50K
인 경우에는 1(참), 그 외의 경우에는 0(거짓)으로 변환됩니다.
하지만 질문에서 말씀하신 것처럼 3개 이상의 target 값을 다루는 경우에는 상황이 조금 달라집니다. astype(int)
를 사용한 변환은 기본적으로 이진 조건 평가에만 적합합니다. 즉, 단일 논리 조건의 결과를 정수로 변환할 때 True는 1, False는 0으로 변환할 수 있지만, 세 개 이상의 값을 다루기 위해서는 별도의 로직이 필요합니다.
세 개 이상의 카테고리를 다루고자 할 경우, 예를 들어 ‘소득 수준’이 ‘<50K', '50K-100K', '>100K’ 등의 세 가지 수준으로 나뉜다면, 이를 0, 1, 2로 엔코딩하기 위해서 pd.Categorical
이나 LabelEncoder
를 사용하시기 바랍니다.
유사한 질문과 관련된 답변을 확인하실 수 있는 URL은 다음과 같습니다:
- y_tr 과 y_train 의 차이점
- 모델링 및 평가(분류) 강의에서
- 학습용/검증용 데이터 구분
이러한 링크에서는 이진분류를 위한 데이터 처리와 여러 값들이 있을 때의 처리에 관한 질문과 답변을 확인하실 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.