인프런 커뮤니티 질문&답변

terry2님의 프로필 이미지
terry2

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

라벨인코딩과 원핫인코딩 후, 데이터 크기 비교

해결된 질문

작성

·

724

0

안녕하세요. 데이터 인코딩 관련하여 궁금한 점이 있어서 질문남기게 되었습니다.

선생님께서 알려주신대로, 인코딩을 필수로 진행하되, 라벨인코딩과 원핫인코딩은 선택하여 자유롭게 진행하여도 학습에 문제가 없다고 이해하였습니다.

 

예시문제를 라벨인코딩과 원핫인코딩으로 둘다 진행하던 중,

라벨인코딩시에는 X_train데이터와 X_test데이터의 컬럼 수가 동일하여 학습에 문제가 없었으나, 원핫인코딩을 진행하니 X_train데이터와 X_test 데이터의 컬럼 수가 달라져서 학습 시, 오류가 발생하는 점을 확인하였습니다.

어떤 점이 문제이며, 원핫인코딩을 이용하려고 한다면 어떻게 접근해야할지 여쭤볼 수 있을까요?

 

라벨인코딩 시 X_train, X_test의 shape => (3500,9), (2482,9)

원핫인코딩시 X_train,X_test의 shape => (3500,73), (2482,72) => 컬럼 수가 일치하지않아 학습 시, 에러 발생

import pandas as pd
pd.set_option('display.max_columns',None)
X_test = pd.read_csv("data/X_test.csv")
X_train = pd.read_csv("data/X_train.csv")
y_train = pd.read_csv("data/y_train.csv")

# 사용자 코딩

# print(X_train.info(),X_test.info())

# 결측치 처리
# print(X_train.isnull().sum())
X_train['환불금액'] = X_train['환불금액'].fillna(0)
X_test['환불금액'] = X_test['환불금액'].fillna(0)

X_test_id = X_test.pop('cust_id')
X_train = X_train.drop(['cust_id'],axis = 1)

# 1. LabelEncoder
cols = X_train.select_dtypes(include='object').columns
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
for col in cols:
	X_train[col] = le.fit_transform(X_train[col])
	X_test[col] = le.transform(X_test[col])
print(X_train.shape,X_test.shape)

# 2. one-hot Encoder
X_train = pd.get_dummies(X_train)
X_test = pd.get_dummies(X_test)
print(X_train.shape,X_test.shape)

 

 

  1. X_train = X_train.drop('cust_id',axis =1)X_train = X_train.drop(['cust_id'],axis =1)를 각각 실행하였을 때, 에러없이 cust_id 컬럼이 동일하게 삭제되는 점을 확인했는데 혹시 drop시 컬럼명에 대괄호를 묶고 안묶고의 차이가 있을까요??

 

 

 

 

 

 

 

답변 1

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

안녕하세요 아래코드로 컬럼을 뽑아낸 다음 차집합을 찾아보니

# 2. one-hot Encoder
X_train = pd.get_dummies(X_train)
X_test = pd.get_dummies(X_test)
print(X_train.shape,X_test.shape)

set1 = set(X_train.columns)
set2 = set(X_test.columns)
print(set1 - set2)

{'주구매상품_소형가전'} 차이가 있네요

이럴 경우 합쳐서 인코딩 후 다시 train과 test로 변환하는 코드가 필요합니다.

# train 데이터 프레임과 test 데이터 프레임을 합칩니다.
df = pd.concat([train, test], axis=0)

#인코딩작업

# 다시 train 데이터 프레임과 test 데이터 프레임으로 분리합니다.
train = df.iloc[:len(train), :]
test = df.iloc[len(train):, :]

 

terry2님의 프로필 이미지
terry2
질문자

자세히 답변해주셔서 감사합니다!!

  1. X_train = X_train.drop('cust_id',axis =1)X_train = X_train.drop(['cust_id'],axis =1)를 각각 실행하였을 때, 에러없이 cust_id 컬럼이 동일하게 삭제되는 점을 확인했는데 혹시 drop시 컬럼명에 대괄호를 묶고 안묶고의 차이가 있을까요??

이 질문도 혹시 확인해주실 수 있으신가요??

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

차이 없습니다.

1개면 안묶어도 됨

X_train = X_train.drop(['A'],axis = 1)
X_train = X_train.drop('A',axis = 1)

2개면 묶어야 함

X_train = X_train.drop(['A', 'B'],axis = 1)
terry2님의 프로필 이미지
terry2
질문자

감사합니다 선생님!

terry2님의 프로필 이미지
terry2

작성한 질문수

질문하기