작성
·
4.5K
1
안녕하세요~4강 보다가 min_samples_split / min_samples_leaf 차이가 뭔지 잘 모르겠어서요. min_samples_split=10으로 한다고 가정하면 샘플이 10개 남았을 때 split하고, min_samples_leaf =10으로 한다고 가정하면 샘플이 10개 남았을 때 split하지 않는 그 차이 뿐인건가요??
답변 1
4
안녕하십니까,
min_samples_split와 min_samples_leaf 는 거의 유사합니다.
다만 min_samples_split는 분할 할 수 있는 샘플수를 지정하는 것이고, min_samples_leaf를 분할해서 leaf가 될 수 있는 샘플수를 지정하는 것입니다. 즉 min_samples_split 기준에 맞아서 분할을 하더라도 min_samples_leaf 기준에 맞지 않아서 leaf를 만들수 없으면 최종 leaf 노드로 생성되지 못합니다. 따라서 branch 노드가 아닌 최종단 분할 시 min_samples_split 기준에 맞아도 min_samples_leaf 기준에 맞지 않느면 최종 leaf 노드로 분할 할 수 없습니다.
가령 min_samples_split = 6 개이고, min_samples_leaf가 4개인데, 6개의 sample로 Node에 개별 클래스 값이 각각 3개씩 들어가 있으면 min_samples_leaf의 최소 갯수가 4개이기 때문에 leaf node로 만들수 없어서 분할하지 못합니다.
감사합니다.