실제 데이터 One hot encoding

[개정판] 파이썬 머신러닝 완벽 가이드

회귀 실습 2: 캐글경연 주택가격 예측 - Advanced Regression Techniques - 02

작성

343

먼저 항상 수업 잘 듣고 있고 감사하다고 말씀드리고 싶습니다!

선생님의 수업을 듣고, 혼자서 해당 데이터를 가지고 kaggle에 직접 제출까지 해보고 싶어 데이터 전처리하는 도중 문제가 발생해 질문 드립니다.

강의에서는 train.csv만을 가지고 전처리를 해서 문제가 없었지만,

실제로 제출을 위해선 test.csv도 train.csv 파일과 같이 전처리를 해야한다고 알고 있습니다.

one hot encoding 하기 전 train.csv, test.csv의 피처 수는 각각 76, 75로 target 값을 제외하면 같은 수인데, get_dimmies함수를 적용하면 피처 수가 각각 272, 255로 다른 값으로 됩니다.

train데이터로 훈련하고 예측을 하려면 test데이터의 피처의 수가 train데이터와 같아야한다고 알고 있는데, 이런 문제는 어떻게 해결해야할까요 그리고 왜 이런 문제가 발생하는 건가요?, 제 추측으로는 각 피처들의 결측 값의 유무로 인해 nan값이 있는 피처들이 컬럼이 하나 더 생겨 차이가 발생하는 것 같은데, 그렇다고 해도 어떻게 해결해야할지 감이 오지 않습니다..답변 기다리겠습니다!!

머신러닝 배워볼래요? python 통계

답변 3