해결된 질문
작성
·
382
0
안녕하세요. 우선 좋은 강의 너무 감사드립니다.
3회 기출유형(작업형2) 코드 인코딩 방법 관련 질문드립니다.
풀이 영상에서 원핫인코딩 방법을 선택해주셨던데 시험 문제를 풀때
1)원핫인코딩을 할지 2)라벨인코딩을 할지는 어떤 정보를 보고 선택하나요?
저는 라벨 인코딩이 익숙해서 아래 처럼 작성했는데 인코딩 방식이 무관하다면, 아래처럼 라벨인코딩으로 진행해도 될지 문의드립니다.
# 수치형 데이터와 범주형 데이터 분리
n_train = train.select_dtypes(exclude=object).copy()
c_train = train.select_dtypes(include=object).copy()
n_test = test.select_dtypes(exclude=object).copy()
c_test = test.select_dtypes(include=object).copy()
cols = c_train.columns
for col in cols:
le = LabelEncoder()
c_train[col] = le.fit_transform(c_train[col])
c_test[col] = le.transform(c_test[col])
c_train.head()
답변 1
0
네 좋습니다 분할하는 방법으로 기출 3을 풀이 했어요
만약 분할했다면 다시 합쳐야 합니다
라벨인코딩 또는 원핫인코딩 중에서 선택기준은 검증데이터를 활용한 평가를 보고 결정합니다
개인적으론 카테고리가 10개가 넘어가면 원핫을 사용하기엔 많아보여요 🙌