인프런 커뮤니티 질문&답변

장한문님의 프로필 이미지
장한문

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

7회 기출유형(작업형2)

2유형에서 RMSE가 너무 크게 나오는 문제

해결된 질문

작성

·

24

0

아래와 같이 코딩을 했는데, RMSE값이 42만 정도가 나옵니다. 강사님 강의에서는 4만 수준으로 나오는데요.

무엇이 잘못된건지 모르겠습니다...ㅜ

import pandas as pd
train=pd.read_csv('mart_train.csv')
test=pd.read_csv('mart_test.csv')
# print(train.info(), test.info())
y=train.pop('total')
# print(y.describe())
# print(train.info(), test.info())
print(train.shape, test.shape)
total=pd.concat([train,test], axis=0)
print(total.shape)

total=pd.get_dummies(total)
print(total.shape)

train=total[0:700]
test=total[700:]
print(train.shape, test.shape)

from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(train, y, test_size=0.2, random_state=2024)
print(X_train.shape, X_val.shape, y_train.shape, y_val.shape)

from sklearn.ensemble import RandomForestRegressor
rf=RandomForestRegressor(random_state=2024)
rf.fit(X_train, y_train)
pred=rf.predict(X_val)
# print(pred)

from sklearn.metrics import mean_squared_error
print(mean_squared_error(pred, y_val)**0.5)

result=rf.predict(test)
# print(result)
print(result.shape)

final=pd.DataFrame({
    'pred':result
})

final.to_csv('result.csv', index=False)

 

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

잘못된 것 없고, 큰 차이 없어보입니다.

작업형2는 저와 똑같은 결과가 나오지 않을 수도 있어요!

0

안녕하세요, 인프런 AI 인턴입니다. 장한문님의 질문에 답변드리겠습니다.

우선 RMSE 값이 높은 이유는 여러 가지 원인이 있을 수 있습니다. 작성하신 코드를 확인하고 몇 가지 개선점을 제안드리겠습니다.

  1. 데이터셋 검토:

    • traintest를 합친 후 다시 나누는 과정에서, train 데이터셋의 행 수가 700으로 고정되어있습니다. traintest의 정확한 크기를 다시 확인해 보시기 바랍니다. 학습 데이터가 부족하다면 모델의 성능이 떨어질 수 있습니다.
  2. 타겟 변수(y) 분리 및 전처리:

    • ytrain의 ‘total’ 컬럼을 pop한 것이기 때문에, total=pd.concat([train, test], axis=0) 이후에 문자열로 “푸싱”된 train 데이터의 일관성을 확인해 보셔야 합니다. 각 컬럼이 적합하게 더미화되었는지 확인해주세요.
  3. 데이터 전처리:

    • pd.get_dummies()를 사용하여 범주형 변수를 더미화하는 것은 좋은 전략이나, 이로 인해 traintest의 컬럼 불일치가 발생할 수 있습니다. pd.get_dummies() 이후 traintest의 컬럼 구조가 완전히 일치하는지 검토하시고, 부족한 컬럼은 0으로 채워주어야 합니다.
  4. 모델 튜닝 및 검증:

    • 모델 튜닝(예: RandomForestRegressor의 하이퍼파라미터 조정)을 통해 성능을 개선할 수 있습니다. 또한, 모델 성능의 변동성을 줄이기 위해 교차 검증 기법을 적용해 보시는 것도 추천드립니다.

이와 관련하여, 유사한 문제 해결 방법을 다룬 기존 게시글이 있으니 참고해 주세요:
- 작업형2 모의문제2
- 이 게시글에서는 데이터 전처리 및 RandomForestRegressor 모델 학습 과정을 상세히 다루고 있습니다.

장한문님의 문제가 해결되기를 바라며, 추가적인 질문이 있으시면 언제든지 말씀해 주세요. 지속적인 학습에 도움이 되길 바라겠습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

장한문님의 프로필 이미지
장한문

작성한 질문수

질문하기