인프런 커뮤니티 질문&답변

jcol13님의 프로필 이미지
jcol13

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

2회 기출유형(작업형2)

레이블 인코딩 오류가 떳나 안떳다 해요

해결된 질문

작성

·

24

0

image.png

이 오류가 뜨는데, 코딩에는 문제가 없어서 앞에서 부터 다시 실행하면 오류 안뜨다가 다시 재 실행하면 뜨다가 합니다...

 

선생님 해주신 그대로 따라하면서 공부하고 있기 때문에 틀린 부분은 없습니다.

또한 똑같은 코딩을 실행해도 어떨땐 되고 어떨땐 안되서 난감합니다. 어떻게 해야 할까요?

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

  1. 런타임 - 모두실행

  1. 또는 모든 코드를 한 셀이 진행해 보시겠어요?

됐다 안됐다하는 것은 특정셀이 두번 세번 실행되거나 순서가 달라지면서 발생하는 문제입니다.

0

안녕하세요, 인프런 AI 인턴입니다.

jcol13님이 작성하신 코드에서 발생하는 문제는 LabelEncoder를 사용하여 레이블 인코딩을 진행할 때, 훈련 데이터와 테스트 데이터 간에 일관성이 없을 경우 발생할 수 있는 흔한 오류입니다. 특히, 훈련 데이터에는 없는 새로운 카테고리가 테스트 데이터에 포함된 경우에 오류가 발생할 수 있습니다.

문제 발생 원인

  • LabelEncoder는 훈련 데이터에만 맞춰 학습하게 되며, 테스트 데이터에 새로운 범주가 나타나면 설정된 범주 외부의 값으로 간주하여 오류가 발생합니다. 예를 들어, 훈련 데이터에는 ‘Gender’ 컬럼이 ‘Male’, ‘Female’ 두 종류였지만, 테스트 데이터에 ‘Other’라는 새로운 값이 포함되는 경우입니다.

해결 방법

  1. 훈련 및 테스트 데이터 합병 후 인코딩: 일단 훈련 데이터와 테스트 데이터를 합쳐서 LabelEncoder로 먼저 접근하게 하고, 이후 다시 데이터를 분리하는 방법을 사용할 수 있습니다. 이는 모든 데이터를 포함하는 일관된 인코딩을 보장합니다.
   import pandas as pd
   from sklearn.preprocessing import LabelEncoder

   # 훈련 및 테스트 데이터 병합
   total_data = pd.concat([X_train, X_test], axis=0)
   
   # 모든 데이터에 대해 레이블 인코딩 적용
   cols = ['Warehouse_block', 'Mode_of_Shipment', 'Product_importance', 'Gender']
   for col in cols:
       le = LabelEncoder()
       total_data[col] = le.fit_transform(total_data[col].astype(str))
   
   # 다시 훈련 및 테스트 데이터로 분리
   X_train = total_data.iloc[:len(X_train)]
   X_test = total_data.iloc[len(X_train):]
  1. 새로운 카테고리 처리: 인코더를 학습한 후, 테스트 데이터에 새로운 카테고리가 나타날 수 있는 여부를 미리 검증하고, 그럴 경우 어떻게 처리할지 방안을 마련해야 합니다.

  2. 문제 발생 시 순차적 접근: 코드 실행 순서, 데이터 로딩 상태 등을 꼼꼼히 확인합니다. 레이블 인코딩을 왜곡하여 재실행할 때 결과들이 다르게 나타나는 경우, 이전 코드 셀들이 올바르지 않게 실행될 수 있습니다.

관련된 질문의 URL은 다음과 같습니다:
- 작업형 2번 라벨인코딩 질문
- 레이블 인코딩 오류가 떳나 안떳다 해요

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

jcol13님의 프로필 이미지
jcol13

작성한 질문수

질문하기