해결된 질문
작성
·
125
0
안녕하세요! 2유형에서 질문이 있는데요,
범주형 변수 인코딩 시 고유값이 많을 경우에, cols = [ ] 로 고유값이 적은 범주형 범수칼럼과 수치형 변수 칼럼을 선택한다음,
원핫 인코딩해서 진행해도 괜찮을까요? (고유값 많은 범주형 칼럼을 아예 버리고 진행)
배운대로 하이퍼파라미터 튜닝(n_estimators, max_depth) 해서 높은 점수가 나온 모델을 택해서 적용, 제출하려하는데, 그냥 베이스라인을 제출하는게 안전하다는 말을 들어서 혼동이 됩니다... 답변해주시면 감사하겠습니다!
답변 1
0
네 그것도 방법입니다면 고유값이 많은 컬럼에 중요한 정보가 있을가봐 우려되네요~ 고유값이 많으면 라벨인코딩 추천합니다.
튜닝을 하지않아도 그동안 40점에 큰 문제는 없었어요. 불안하다면 하지 않는 것을 추천합니다. 심화 부분입니다.