Feature Scaling

Question

feature scaling에서 X_test는 fit_transform이 아니라 transform만 해야한다고 하셨는데요! (logistic regression 실습 18분 부근) 어차피 X_train과 평균과 표준편차가 동일할 거라는 건 이해가 되지만, 미래 값인 X_test의 평균/표준편차를 구할 순 없다는 말씀은 이해가 잘 되지 않습니다 ㅠㅠ, 그리고 어차피 동일하다면 X_test에 fit_transform을 해도 같은 결과가 나와야 하는 거 아닌가요? 늘 감사합니다!

YoungJea Oh · Answer

테스트 데이터( X_test )에 대해서 새로운 통계값(평균, 분산)을 계산하는 fit 을 수행하지 않는 이유는 모델 평가 시 테스트 데이터가 학습 과정에서 사용된 데이터와 동일한 조건에서 평가되어야 하기 때문입니다. 즉 X_train 데이터로 만든 내 모델이 실전에서 보지 못한 새로운 데이터를 입력 받았을 때 정상 처리하려면 학습 데이터에 했던 것과와 동일한 전처리(Standard Scaling 또는 MinMax Scaling)를 새로운 데이터에도 해 주어야 하는데 이때 새로운 데이터의 전처리에 적용할 평균/분산 (Standard Scaling의 경우) 또는 최대/최소값(MinMax Scaling의 경우) X_train에서 구해 놓았던 값을 그대로 사용한다는 의미 입니다. 만약 새로운 데이터의 통계적 수치가 과거 모델을 만들었던 X_train의 통계 수치와 크게 바뀌었다면 데이터의 분포가 바뀐 것이니 새로운 데이터에 맞추어 모델을 새롭게 훈련 시켜야 합니다. 그 것이 인공 지능 모델이라는 소프트웨어의 유지 보수 과정입니다. 감사합니다.

인프런 커뮤니티 질문&답변

Feature Scaling