범주형 데이터 세트의 불균형 문제
네 좋은 질문인 것 같아요. 실제로 데이터 불균형 (unbalanced data)관련해서는 job interview에서 전형적으로 물어보는 질문 중 하나입니다. 데이터의 특징에 따라 여러가지 방법을 적용해볼수있는데, 실무에서 가장 많이 사용하는 방법은 앙상블(ensemble) 기법입니다. XGBoost 를 많이 사용하는데, scale_pos_weight 같은 패러미터를 써서 weight조절이 가능합니다. 그 외에도 SMOTE 같은 방식(오버샘플링)이 있지만, 이 경우 새로운 데이터가 실제 데이터 분포를 충분히 반영하지 못할 수 있기 때문에 추가로 판단해야 되구요. 언더샘플링 방식도 있지만 말씀하신 것처럼 극단적인 불균형에는 어울리지 않아 보입니다. 이외에도 Isolation Forest, Autoencoder 방식 등이 있기도 합니다. 각각 데이터 특성에 따라 섞어서 쓰기도 하고, 모든 방식을 쓴 다음 performance를 비교해서 채택하기도 합니다. 좋은 질문입니다 소요요님!!