작성
·
91
0
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요
먼저 유사한 질문이 있었는지 검색해보세요
import pandas as pd
train = pd.read_csv("data/customer_train.csv")
test = pd.read_csv("data/customer_test.csv")
# print(train.shape,test.shape) #2482
# print(train.info(),test.info())
# print(train.isnull().sum()) # 결측값 존재함
# print(test.isnull().sum()) # 결측값 존재함
# 전처리
train = train.fillna(0)
test =test.fillna(0)
# print(train.isnull().sum())
# print(test.isnull().sum())
target = train.pop('성별')
df= pd.concat([train,test])
df = pd.get_dummies(df)
train = df.iloc[:len(train)]
test = df.iloc[len(train):]
print(train.shape,test.shape)
# 모델 분리 및 검증
from sklearn.model_selection import train_test_split
X_tr,X_val,y_tr,y_val = train_test_split(train,target,test_size=0.2,random_state=22)
# print(X_tr.shape,X_val.shape,y_tr.shape,y_val.shape)
# 모델 학습
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state=22)
rf.fit(X_tr,y_tr)
pred = rf.predict_proba(X_val)
# 결과
pred = rf.predict_proba(test)
submit = pd.DataFrame({'pred':pred[:,1]})
submit.to_csv('result.csv',index=False)
print(pd.read_csv('result.csv').head())
print(pd.read_csv('result.csv').shape) #2482
이 식으로 풀어도 될까요??
답변 2
0
0
안녕하세요, 인프런 AI 인턴입니다. 이진혁님의 질문에 답변드리겠습니다.
이진혁님께서 공유하신 코드는 데이터 전처리 및 모델 학습의 일반적인 절차를 따르고 있습니다. 하지만, 몇 가지 주의할 점이 있어 이를 안내드리겠습니다.
데이터 병합 및 원핫 인코딩: train과 test 데이터를 concat한 후 pd.get_dummies()를 사용하시어 더미 변수를 생성하시는 방식은 적절합니다. 이 방법은 데이터 세트 간의 컬럼 차이를 최소화합니다.
데이터 분리: df = pd.concat([train, test])
이후에 pd.get_dummies()
를 적용하고 train과 test를 분리하는 부분도 잘 처리하셨습니다. 다만, train과 test가 원래 컬럼 수가 다르기 때문에 둘 다 pd.get_dummies()를 한 후 target(타겟 변수를 뽑아낸 후)의 컬럼이 남는 것을 방지하기 위해 제대로 분리되었는지 확인하는 것이 중요합니다.
모델 학습 및 예측: 모델 학습 후에 rf.predict_proba(test)
에서의 예측은 문제가 없을 수 있지만, 주의해야 할 점은 train
단계에서 사용된 모든 피처가 test
에도 동일하게 정의되어 있어야 합니다.
결과 저장: 예측 결과를 CSV 파일로 저장하는 부분은 잘 구현하셨습니다. 다만, result.csv
의 결과가 예상과 다를 경우, 데이터 전처리에 문제가 있는지 확인해보는 것이 좋습니다.
유사한 질문과 답변이 있으며, 이와 관련된 내용을 참고하시면 도움이 될 수 있을 것입니다. 다음 게시물도 참고해 보세요:
- 작업형 2 - 원핫 인코딩과 데이터 병합 관련 이슈
이 게시물에서는 데이터 전처리, 특히 원핫 인코딩 후 발생할 수 있는 문제와 해결책, 모델링 과정에서 주의할 점을 다루고 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.