강의 듣다가 궁금한 점이 생겼습니다..!

Question

선생님~

제가 머신러닝 쪽으로 현업경험이 없다보니 현업에서의 모델 배포-사용 관련 업무 로직에 대해서 궁금증이 생겨서요..

기존 데이터에서 보통 피처를 가공하고 재생산을 한 후 모델을 학습시키잖아요~

최종 모델을 배포 한 후에..

그 배포된 모델을 통해 새로운 데이터를 예측 한다고 한다면,

새로운 데이터는 기존데이터 세트의 형식과 똑같이 쌓이기 때문에 새로운 데이터를 다시,

학습시켰을 때의 데이터(피처엔지니어링 후의 데이터 형태)처럼 피처들을 가공해서 만들어주고 예측을 하는 건가요..?

(fit에 넣는 train_x 와 predict에 넣는 test_x 의 피처들이 같아야 하는 것 처럼..)

그렇다면..예측하기 위해서 새로운데이터를 학습시킨 모델에 넣어주기 전에 그 새로운데이터도 피처엔지니어링을 해야 할텐데, 그 때 기존에 피처엔지니어링을 위해 만들었던(함수화 해 놓은)것들을 사용하는 건가요..?

freedom07 · Answer

아하 강의 후반부에 나오는 군요..!ㅎㅎ 답변 감사합니다^^

권 철민 · Answer

네, 맞습니다.

학습시에 적용된 scaling, feature engineering 모두 테스트 데이터에도 동일하게 적용되어야 합니다. 조금 더 강의를 학습하시면 해당 내용이 나올 것입니다.

감사합니다.

인프런 커뮤니티 질문&답변