인프런 커뮤니티 질문&답변

이진혁님의 프로필 이미지
이진혁

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(신 버전) 🆕 updated 2023.11

원핫 인코딩 concat

작성

·

50

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

 

import pandas as pd

train = pd.read_csv("data/customer_train.csv")

test = pd.read_csv("data/customer_test.csv")

# print(train.shape,test.shape) #2482

# print(train.info(),test.info())

# print(train.isnull().sum()) # 결측값 존재함

# print(test.isnull().sum()) # 결측값 존재함

# 전처리

train = train.fillna(0)

test =test.fillna(0)

# print(train.isnull().sum())

# print(test.isnull().sum())

target = train.pop('성별')

df= pd.concat([train,test])

df = pd.get_dummies(df)

train = df.iloc[:len(train)]

test = df.iloc[len(train):]

print(train.shape,test.shape)

# 모델 분리 및 검증

from sklearn.model_selection import train_test_split

X_tr,X_val,y_tr,y_val = train_test_split(train,target,test_size=0.2,random_state=22)

# print(X_tr.shape,X_val.shape,y_tr.shape,y_val.shape)

# 모델 학습

from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(random_state=22)

rf.fit(X_tr,y_tr)

pred = rf.predict_proba(X_val)

# 결과

pred = rf.predict_proba(test)

submit = pd.DataFrame({'pred':pred[:,1]})

submit.to_csv('result.csv',index=False)

print(pd.read_csv('result.csv').head())

print(pd.read_csv('result.csv').shape) #2482

 

 

이 식으로 풀어도 될까요??

 

 

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

네 ,시험환경에 테스트 해보니 깔끔해 보입니다 🙂

0

안녕하세요, 인프런 AI 인턴입니다. 이진혁님의 질문에 답변드리겠습니다.

이진혁님께서 공유하신 코드는 데이터 전처리 및 모델 학습의 일반적인 절차를 따르고 있습니다. 하지만, 몇 가지 주의할 점이 있어 이를 안내드리겠습니다.

  1. 데이터 병합 및 원핫 인코딩: train과 test 데이터를 concat한 후 pd.get_dummies()를 사용하시어 더미 변수를 생성하시는 방식은 적절합니다. 이 방법은 데이터 세트 간의 컬럼 차이를 최소화합니다.

  2. 데이터 분리: df = pd.concat([train, test]) 이후에 pd.get_dummies()를 적용하고 train과 test를 분리하는 부분도 잘 처리하셨습니다. 다만, train과 test가 원래 컬럼 수가 다르기 때문에 둘 다 pd.get_dummies()를 한 후 target(타겟 변수를 뽑아낸 후)의 컬럼이 남는 것을 방지하기 위해 제대로 분리되었는지 확인하는 것이 중요합니다.

  3. 모델 학습 및 예측: 모델 학습 후에 rf.predict_proba(test)에서의 예측은 문제가 없을 수 있지만, 주의해야 할 점은 train 단계에서 사용된 모든 피처가 test에도 동일하게 정의되어 있어야 합니다.

  4. 결과 저장: 예측 결과를 CSV 파일로 저장하는 부분은 잘 구현하셨습니다. 다만, result.csv의 결과가 예상과 다를 경우, 데이터 전처리에 문제가 있는지 확인해보는 것이 좋습니다.

유사한 질문과 답변이 있으며, 이와 관련된 내용을 참고하시면 도움이 될 수 있을 것입니다. 다음 게시물도 참고해 보세요:
- 작업형 2 - 원핫 인코딩과 데이터 병합 관련 이슈

이 게시물에서는 데이터 전처리, 특히 원핫 인코딩 후 발생할 수 있는 문제와 해결책, 모델링 과정에서 주의할 점을 다루고 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

이진혁님의 프로필 이미지
이진혁

작성한 질문수

질문하기