게시글
질문&답변
3-4 이진분류 모델링 실습 원핫 인코딩 질문 드립니다.
안녕하세요? 질문 올려 주셨군요.^^범주형 변수에 대해서 말씀하신대로, 범주형은 일반적으로 원핫 인코딩(가변수화)를 수행한 후 모델링 합니다.범주형인데, 순서형인 경우, 숫자의 간격이 등간격 의미로 이해하고 숫자로 모델링을 시도하기도 합니다. 만약 만족도가 1이 매우 불만, 5가 매우 만족일 때, 1,2,3,4,5의 간격이 숫자로써도 의미가 있다면 숫자로 두고 모델링 시도해볼 수 있습니다.이진 분류 문제인데, 두 클래스간 불균형 문제가 존재합니다.클래스가 불균형 일때, 모델은 대체로 다수이 클래스를 더 많이 예측하려는 경향이 있습니다.stratify=y 옵션은 전체 데이터에서 0과 1의 비율을 유지하면서 데이터를 분할하는 방법입니다. 예를 들어 전체 데이터에서 0 : 1 = 0.8 : 0.2 라면, 데이터 분할할때, train과 val에서도 0 : 1 = 0.8 : 0.2 을 유지하도록 해주는 옵션입니다.클래스가 불균형일 때 해결하는 몇가지 방법이 있습니다.데이터의 클래스 불균형을 해소하기 : resampling 기법들 - down sampling, up sampling좀더 쉬운 방법 - 예측 후, 결과를 0.5 기준이 아닌, 다른 기준으로 조절하기다만, 위 두가지 방법은 모델의 전체 성능을 높이기 위한 것이 아니라, 이직(1) 클래스의 성능을 높이기 위한 방법입니다. 이렇게 하면, 잔류(0) 클래스의 성능은 좀 떨어지게 됩니다. trade-off 관계이지요.이처럼 클래스가 불균형이 극심한 경우의 문제를 이상탐지 문제라고 부르고 이를 해결하기 위한 별도의 모델링 기법들이 있습니다.답변이 되셨기를 바랍니다. 또 궁금한점 있으면 질문 올려주세요.^^감사합니다.
- 0
- 2
- 37
질문&답변
2일차 참조 답안
안녕하세요? 한기영강사 입니다.말씀하신 답안 코드를 확인해보니, 코드가 두번 잘못 들어간 것을 확인했습니다.제가 면밀히 살펴보지 못해서 코드가 잘못 작성된 점 양해 바랍니다.바로 수정해서 업로드 하였답니다.또한 질문하셨던 것처럼 두번 학습 시키다보면 자칫 과적합이 발생될 수도 있습니다. 이렇게 질문으로 문제점을 알려주셔서 정말 감사합니다.좋은 하루되세요.
- 0
- 2
- 47
질문&답변
2일차 종합실습 모델 평가 MAPE 지표
안녕하세요? 질문에 답변 드립니다.^^MAPE는 실제값 - 예측값을 실제값으로 나눈 후, 이의 절대값 평균으로 계산합니다.(사진)이때 나누는 수인 실제값이 0인 경우 분모가 0이 되는 문제가 발생하므로 계산상 오류를 방지하기 위해 분모에 아주 작은 수를 더해줍니다. 보통 1*e-06 정도의 수 입니다. 그런 경우에 MAPE가 엄청 큰 수가 나오게 됩니다.이럴 때에 MAPE 지표를 사용하지 않는답니다.답변이 되셨기를 바랍니다.^^
- 0
- 1
- 90