작성
·
72
0
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True, return_train_score=True)
grid_dtree.fit(X_train, y_train)
강의에서는 지금까지 정확도를 도출할때 이미 훈련 데이터로 학습된 모델을 통해 X_test 데이터의 예측값을 구하고 이를 실제 y_test 값과 비교하여 일치도를 구하는 방식으로 하였습니다. 하지만 위의 코드에서는 test 데이터 없이 train 데이터만 grid_dtree에 넣었는데 어떻게 파라미터별 정확도를 평가할 수 있는건지 이해가 안갑니다!! GridSearchCV를 통한 파라미터별 정확도는 어떻게 도출되는것인가요?
답변 1
0
안녕하십니까,
GridSearchCV는 하이퍼 파라미터의 최적값을 찾기 위해 고안된 것 입니다. 학습 데이터를 학습 데이터와 검증 데이터를 Cross validation 으로 쪼개면서 다양한 하이퍼 파라미터의 최적 값을 학습과 검증을 반복하면서 찾아냅니다.
이때 테스트 데이터는 GridSearchCV에 적용하면 안됩니다. 테스트 데이터는 최적 하이퍼 파라미터를 적용한 모델에 말 그대로 최종 테스트를 위해서 적용합니다.
해당 내용을 강의에서 설명드리고 있으니, 다시 한번 GridSearchCV 나 Cross validation 강의를 복습해 보시면 좋을 것 같습니다.
감사합니다.