해결된 질문
작성
·
372
0
교차 검증에서 데이터 셋을 학습,검증,테스트 데이터로 나누어 학습, 검증 데이터를 통해 일차평가하고, 최종적으로 테스트 테이터를 통해 마지막 예측을 하는 것으로 이해했는데요..
k-fold도 그렇고, stratified k fold도 그렇고 코드로 예제 보여주실때엔 학습과 검정데이터로만 전체데이터를 나누어 교차검증 정확도를 평균내더라구요.
데스트 데이터는 그럼 따로 나눌 필요가 없는 것인가요?
제가 잘못이해한 것인지 너무 헷갈립니다,, 알려주세요,,ㅠ_ㅠ
답변 3
2
안녕하십니까,
테스트 데이터가 별도로 있으면 좋습니다(이게 표준 프로세스 입니다).
하지만 전체 데이터 건수가 작아서 테스트 데이터를 따로 분리하면 학습 데이터 량이 작아서 교차 검증만 수행한 것입니다.
교차 검증 후에 별도의 테스트 데이터로 검증 하는게 좀 더 검증에 만전을 기할 수 있습니다.
설 연휴 잘 보내십시요.
0
0
강사님, 혹시 데이터를 학습, 검증, 테스트 데이터로 나누는 즉, 별도의 테스트 데이터를 분리하는 과정은 cross_val_score()에 포함되어 있는건가요? 아니라면 별도의 테스트 데이터셋의 분리는 코드로 나타냈을 때, 어떤식인지 알려주시면 감사하겠습니다!
학습/테스트 데이터셋으로 나누고 학습 데이터만 교차검증을 해보는 코드를 짜보려고 했는데 생각보다 잘안되네요ㅜㅜ