미해결
캐글 Advanced 머신러닝 실전 박치기
주요 피처 선정 및 피처 엔지니어링 관련 질문
안녕하세요 권철민님. 좋은 강의 감사드립니다.
1. displot이나 heatmap를 수행할 때 모든 피처가 아닌 '주요 피처'를 따로 뽑아서 수행하셨습니다. 여기서 주요 피처를 선정하는 기준이 어떤 것인가요? plot_importance를 기준으로 하신 것인지요? 만약 아니라면, 어떠한 '정량적'인 기준이 있는지요? 아니면 처음에 강조하셨던 해당 비즈니스 도메인 knowledge에서 비롯된 정성적 기준/직관적 기준으로 선정한 것인지요?
2. 주요 피처로 선택되지 않은 피처들이 사후 scaling / outlier 제거 등을 통해 주요 피처가 될 수도 있지 않는지요? 혹시라도 나중에 약간의 가공으로 주요피처가 될 수도 있는데, 처음에 주요피처를 선정해버리면 이들이 분석의 scope에서 제외되어 버리지는 않을까 걱정됩니다.
3. 가공된 피처와 원본 피처는 상관관계가 매우 높을텐데, 원본피처는 drop하지 않아도 되는지요? 저의 짧은 지식으로는 높은 상관관계는 다중공선성 문제를 유발한다는데, Regression 계열만 문제되고 Tree 기반한 GBM계열은 신경쓰지 않아도 될까요?