smote = SMOTE(random_state=0)

[개정판] 파이썬 머신러닝 완벽 가이드

분류 실습 2: 신용카드 사기 예측 실습 - 02

작성

안녕하세요 선생님 !

분류에서 샘플링 기법을 배웠는데

from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=0)

회귀문제에서도 smote 기법같은게 있을까요 ?!

강의 교육 전 먼저 질문드립니다 ㅠ..!

python 머신러닝 통계

답변 3

권 철민

지식공유자

안녕하십니까,

일반적으로는 회귀의 결과 값이 단일값이 아니라 연속된 값이라 과대 샘플링, 과소 샘플링을 만들 수가 없습니다.

근데, 그럼에도 불구하고, 이걸 나름의 방식으로 적용한 패키지가 있습니다.

SMOGN 패키지이며, 사용법은 아래 URL에서 보시면 됩니다.

https://github.com/nickkunz/smogn

근데 데이터가 30개 미만이면 너무 작습니다. 오버 샘플링해도 성능이 나아질 것 같지 않습니다. (한번 시도해 보시는 것도 나쁘진 않을것 같습니다만)

감사합니다.

kyb1053

질문자

앗 추가로, 여쭤보는 사유는 데이터수가 부족(30개미만)하여 오버샘플링으로

분석을 진행하기 위함입니다..! 일례로, *** 기업에서 30개 미만 데이터에서 몇만개 데이터로 증강하여

회귀분석을 진행하더라구용

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

kyb1053님께서 문의해주신 내용을 바탕으로 회귀 문제에서도 사용할 수 있는 샘플링 기법에 대해 설명해드리겠습니다. 회귀 문제에서는 주로 언더샘플링이나 오버샘플링이 필요하지 않을 때가 많습니다. 그러나 특이치(outlier)나 불균형(bias)을 다뤄야 할 때 다른 기법들을 적용할 수 있습니다. SMOTE(실제 데이터와 반대측 데이터의 평균을 만들어 새로운 데이터를 생성하는 기법)는 주로 분류 문제에서 불균형 클래스 데이터를 처리하는 데 사용됩니다.

회귀 문제에서 데이터를 증강하거나 조작해야 한다면 데이터 정규화(Normalization), 데이터 변환(Transformation), 특성 엔지니어링(Feature Engineering) 기법들을 고려할 수 있습니다. 예를 들면, 로그 변환(log transformation)이나 박스-콕스 변환(Box-Cox transformation) 같은 기법이 있을 수 있습니다.

다음과 같은 경우, 관련 질문 URL을 참조하셔서 보다 자세한 정보를 얻어보시길 추천드립니다.

해당 링크들에서는 SMOTE 사용 시 발생한 오류와 관련된 해결 방법을 제시하고 있으며, 머신러닝 모델에서 샘플링 기법을 사용하는 것에 대한 이해를 도울 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변

smote = SMOTE(random_state=0)