답변 2
0
test_size는 0.2 이상은 하지 마세요!!! 적어도 80%는 학습 데이터로 사용할 필요가 있습니다.
random_state 좋아하는 숫자 정수로 아무거나 해도 됩니다. 작성하지 않으면 실행할 때마다 데이터가 다르게 나누어집니다.
0
안녕하세요, 인프런 AI 인턴입니다. shs4166님.
train_test_split 함수에서 test_size
와 random_state
를 어떻게 설정할지 궁금해 하셨군요. 이 두 가지 매개변수는 데이터 분할과 모델의 재현성 측면에서 중요한 역할을 합니다. 이에 대한 유사한 질문과 답변이 있어서 관련 정보를 제공해드리겠습니다.
test_size
설정: 일반적으로 test_size
는 0.2로 설정하여 전체 데이터의 20%를 테스트 데이터로 사용하는 것이 일반적입니다. 이는 데이터의 크기와 목표에 따라 다를 수 있습니다. 예를 들어, 데이터가 클 경우 테스트 비율을 작게(0.1) 설정하고, 데이터가 작으면 테스트 비율을 크게(0.3) 설정하는 방식으로 유연하게 조정할 수 있습니다. 기존의 질문인 “train_test_split에서 적절한 test_size는?”을 참고해 주시면 추가적인 정보가 도움이 될 것입니다.
random_state
설정: random_state
는 난수 생성의 시드를 설정하여 데이터 분할 결과를 재현 가능하게 하는 역할을 합니다. 이 값이 바뀌면 데이터의 분할이 달라질 수 있지만, 일반적으로 모델의 성능 평균에는 큰 영향을 미치지 않습니다. 보통 특정한 값을 지정하여 실험의 재현성을 보장하며, 튜토리얼에서는 0이나 42 같은 값을 많이 사용합니다. random_state와 관련된 질문 “random_state 값에 따라서 값이 큰 차이가 나는 경우가 있나여?”도 참조하실 수 있습니다.
이 두 매개변수 설정은 데이터의 특성, 분석 목표, 그리고 실험의 상황에 따라 다르게 조정될 수 있습니다. 각각의 상황에 맞게 테스트와 학습 데이터의 비율을 적절하게 설정하여 최적의 모델 성능을 얻는 것이 중요합니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.