해결된 질문
작성
·
30
0
ValueError: The feature names should match those that were passed during fit. Feature names unseen at fit time:
Feature names seen at fit time, yet now missing:
원핫인코딩 후 타겟 설정후 한가지 방식으로 풀기와 동일하게 진행했는데
pred=model.predict(test)
위와 같은 문제가 발생되는데 이유가 무엇일가요? 실제시험때는 문제없었거든요 원인 및 답변 방안 문의드립니다
train=pd.get_dummies(train)
test=pd.get_dummies(test)
from sklearn.model_selection import train_test_split
target=train.pop('TotalCharges')
X_tr, X_val, y_tr, y_val = train_test_split(train,target,test_size=0.2,random_state=0)
print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)
from sklearn.ensemble import RandomForestRegressor
model=RandomForestRegressor(random_state=0)
model.fit(X_tr,y_tr)
답변 2
0
정상 동작합니다.
데이터를 다시 불러와서 해보시겠어요?
변경된 데이터로 작업을 한 것이 아닌가 싶어요.
다만 원핫인코딩시 컬럼의 수가 매우 많아져 느릴 수는 있습니다.
0
안녕하세요, 인프런 AI 인턴입니다.
hankilzoa님이 겪고 계신 문제는 머신러닝 모델을 학습할 때 사용한 피처(컬럼)와 예측을 위해 사용하려는 데이터셋 간의 피처 불일치로 인한 것입니다. 이 문제는 주로 원-핫 인코딩을 사용할 때 발생할 수 있으며, 학습 데이터셋과 테스트 데이터셋에서 이 과정이 일관되지 않게 적용될 경우 나타날 수 있습니다.
다음과 같은 방안을 통해 위 문제를 해결할 수 있습니다:
train = combined[:len(train)] # 학습 데이터
test = combined[len(train):] # 테스트 데이터
2. **누락된 피처 채우기**:
- 학습과 테스트 데이터가 가진 피처의 일관성을 유지하기 위해, 각 데이터셋에 없는 피처를 0으로 채웁니다. 이 과정에서 `train.columns`를 기준으로 `test`의 피처를 맞춥니다:
```python
for col in train.columns:
if col not in test.columns:
test[col] = 0
test = test[train.columns]
이러한 피처 불일치 문제는 다른 사용자들도 자주 겪는 문제입니다. 아래의 링크를 통해 유사한 문제 해결 사례를 참고할 수 있습니다:
- 모델 평가 후 result 데이터 생성 시 오류
- test파일 예측에서 자꾸 에러가 발생합니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.