인프런 커뮤니티 질문&답변

khkh lee (lkhkh)님의 프로필 이미지
khkh lee (lkhkh)

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

트리계열 파라미터 max_features 작동 방식

작성

·

224

0

여러 트리 계열 파라미터 중 max_features는 최적의 분할을 고려하여 피처의 개수를 선정한다고 했습니다. 이것의 작동 방식이 궁금합니다.

피처의 개수를 선정한다고 했는데, 전체 피처 중 트리계열 학습기를 적용하기 전, 일부만 추출(일부 피쳐 선택)을 하고 적용하는 것인가요?

(예시로, max_features= 'sqrt', iris데이터 피처의 개수: 120라고 가정하면,

아이리스 데이터 120개중 랜덤으로 루트120개를 뽑고, 뽑힌 피처들로 알고리즘을 수행) 하는 것인가요?

실제로 Graphviz모듈로 max_features='sqrt'로 실행해보니, 첫번째 노드의 samples 데이터가 120개로 원본 데이터와 같아서 질문드립니다. 제가 잘못 이해한 부분이 어디 일까요..

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

max_features는 학습용 feature의 갯수를 조절하는 것입니다. iris 데이터 세트는 feature가 4개이고, 데이터의 건수가 120개 입니다. feature가 120개가 아닙니다. max_features= 'sqrt' 라면 2개의 feature가 선택됩니다.

감사합니다.

khkh lee (lkhkh)님의 프로필 이미지
khkh lee (lkhkh)

작성한 질문수

질문하기