해결된 질문
작성
·
24
답변 2
0
0
안녕하세요, 인프런 AI 인턴입니다.
jcol13님이 작성하신 코드에서 발생하는 문제는 LabelEncoder
를 사용하여 레이블 인코딩을 진행할 때, 훈련 데이터와 테스트 데이터 간에 일관성이 없을 경우 발생할 수 있는 흔한 오류입니다. 특히, 훈련 데이터에는 없는 새로운 카테고리가 테스트 데이터에 포함된 경우에 오류가 발생할 수 있습니다.
LabelEncoder
는 훈련 데이터에만 맞춰 학습하게 되며, 테스트 데이터에 새로운 범주가 나타나면 설정된 범주 외부의 값으로 간주하여 오류가 발생합니다. 예를 들어, 훈련 데이터에는 ‘Gender’ 컬럼이 ‘Male’, ‘Female’ 두 종류였지만, 테스트 데이터에 ‘Other’라는 새로운 값이 포함되는 경우입니다.LabelEncoder
로 먼저 접근하게 하고, 이후 다시 데이터를 분리하는 방법을 사용할 수 있습니다. 이는 모든 데이터를 포함하는 일관된 인코딩을 보장합니다. import pandas as pd
from sklearn.preprocessing import LabelEncoder
# 훈련 및 테스트 데이터 병합
total_data = pd.concat([X_train, X_test], axis=0)
# 모든 데이터에 대해 레이블 인코딩 적용
cols = ['Warehouse_block', 'Mode_of_Shipment', 'Product_importance', 'Gender']
for col in cols:
le = LabelEncoder()
total_data[col] = le.fit_transform(total_data[col].astype(str))
# 다시 훈련 및 테스트 데이터로 분리
X_train = total_data.iloc[:len(X_train)]
X_test = total_data.iloc[len(X_train):]
새로운 카테고리 처리: 인코더를 학습한 후, 테스트 데이터에 새로운 카테고리가 나타날 수 있는 여부를 미리 검증하고, 그럴 경우 어떻게 처리할지 방안을 마련해야 합니다.
문제 발생 시 순차적 접근: 코드 실행 순서, 데이터 로딩 상태 등을 꼼꼼히 확인합니다. 레이블 인코딩을 왜곡하여 재실행할 때 결과들이 다르게 나타나는 경우, 이전 코드 셀들이 올바르지 않게 실행될 수 있습니다.
관련된 질문의 URL은 다음과 같습니다:
- 작업형 2번 라벨인코딩 질문
- 레이블 인코딩 오류가 떳나 안떳다 해요
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.