해결된 질문
작성
·
405
1
안녕하세요! 모의고사2 관련 질문입니다.
수업에서 배운대로 pd.get_dummies로 원핫 인코딩을 했는데요..
파일을 합쳐서 원핫인코딩을 하고나니 원래 있던 다른 수치형 컬럼들이 다 없어지고 원핫으로 만든 컬럼들만 남더라구요;;
이렇게 되면 파일 다시 나누고 모델학습할떄 원핫으로 만든 컬럼들만 남아서 안될것같은데
제가 코드를 잘못친걸까요..? 전체 코드는 아래에 붙여놓았습니다.
# 시험환경 세팅
import pandas as pd
from sklearn import datasets
dataset = datasets.load_breast_cancer()
df = pd.DataFrame(dataset['data'], columns=dataset['feature_names'])
df['target'] = dataset['target']
df.to_csv("data2.csv", index=False)
from sklearn.model_selection import train_test_split
train, test = train_test_split(df, test_size=0.2, random_state=2022)
y_test = test.pop('target')
train.to_csv('train.csv', index=False)
test.to_csv('test.csv', index=False)
# 데이터 파일 읽기 예제
import pandas as pd
train = pd.read_csv("data/customer_train.csv")
test = pd.read_csv("data/customer_test.csv")
#EDA
# print(train.shape, test.shape) (3500, 11) (2482, 10)
# print(train['성별'].value_counts()) 0 2184 1 1316
# print(train.info(), test.info()) object=주구매상품, 주구매지점
# print(train.isnull().sum(), test.isnull().sum()) 결측치는 환불금액 2295 / 1611
# print(train['환불금액'].describe())
pd.set_option('display.max_columns',None)
#결측치
train['환불금액'] = train['환불금액'].fillna(0)
test['환불금액'] = test['환불금액'].fillna(0)
# print(train.isnull().sum(), test.isnull().sum())
#파일 나누기
target = train.pop('성별')
# print(train.shape, target.shape)
train =train.drop('회원ID', axis=1)
# print(train.shape)
id = test.pop('회원ID')
# print(test.shape, id.shape)
# print(train.shape, test.shape)
#피쳐 엔지니어링
#1.베이스라인
#2. 인코딩
# print(train.describe(include='O'),test.describe(include='O') )
# TRAIN 주구매상품에 소형가전이 추가로 있음
# a = set(train['주구매지점'].unique())
# b = set(test['주구매지점'].unique())
# print (a-b)
# print (b-a)
all_df=pd.concat([train,test])
cols = ['주구매상품', '주구매지점']
all_df=pd.get_dummies(all_df[cols])
print(all_df.head()) -> 여기서 원핫인코딩 한 이후로 원래 있던 수치형 컬럼들이 다 사라졌습니다;
# print(train.columns)
# from sklearn.preprocessing import LabelEncoder
# for col in cols :
# le = LabelEncoder()
# train[col] = le.fit_transform(train[col])
# test[col] = le.transform(test[col])
# print(train.head(), test.head())
# cols = ['주구매상품', '주구매지점']
# cols = ['총구매액', '최대구매액', '환불금액', '방문일수', '방문당구매건수', '주말방문비율', '구매주기']
# print(train.select_dtypes(exclude='object').columns)
#데이터 분할
# from sklearn.model_selection import train_test_split
# x_tr,x_val,y_tr,y_val = train_test_split(train,target,test_size = 0.2, random_state =2024)
# print(x_tr.shape, x_val.shape, y_tr.shape, y_val.shape)
# #학습
# from sklearn.ensemble import RandomForestClassifier
# model = RandomForestClassifier(random_state=0)
# model.fit(x_tr,y_tr)
# pred = model.predict(x_val)
# # print(pred)
# print(pred.shape)
# # #평가 f1
# from sklearn.metrics import f1_score
# print(f1_score(y_val, pred))
# #베이스라인 0.4460093896713615
# #라벨인코딩 0.42352941176470593
# #원핫인코딩
답변 1
1
all_df=pd.get_dummies(all_df[cols])
위 코드를 아래 코드로 변경해주세요
위 코드는 이미 컬럼을 선택해서 다른 컬럼은 버리게 됩니다.
all_df = pd.get_dummies(all_df, columns=cols)
인코딩 관련 추가 영상을 제작했어요 확인 부탁드립니다.