묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
스태킹모델 예측성능 올리는 법
안녕하십니까.수업을 듣고 연습을 하던 중 문제가 생겨서 글 남깁니다.제가 Random Forest, LGBM으로 기기의 출력을 예측하는 과정을 하고 있는데 각각 단일 앙상블 학습보다 RF와 LGBM을 조합한 스태킹 학습을 통해 예측 성능을 높이려고 했는데 단일 앙상블 학습의 예측 성능이 MAE기준 1점 정도 더 높게 나왔습니다. 스태킹 학습을 통해 성능을 살짝만 올리면 원하는 목적에 달성할 수 있을 거 같은데 어떻게 하면 좋을까요?현재 RF, LGBM, XGB, Linear 회귀 알고리즘을 조합하여 도전을 해봤는데도 예측성능이 오르질 않네요 ㅠㅠ
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
스태킹 알고리즘 관련 질문
교재 279기준으로 해서 질문이 있습니다각 모델 1-3부터 예측을 해서 예측에 나온 결과값으로 스태킹을 하는 부분은 이해를 했습니다하지만 여기 predict를 해서 나온 결과값들이 (암 환자이면 암1 암이 아니면 0) 0,1로 구성된 레이블이 나오는데 이 데이터로 어떻게 학습을 하나요..?정리하면 기존에 암 데이터 피처는 종양크기, 위치, 색 등으로 피처데이터로 구성되어서 학습하고 예측 했는데스태킹에서 predict로 나온 결과값들(0,1,1,0 예로 들어) 어떻게 학습을 하게 되는 건가요…? 추가적으로 메타모델이 로지스틱이면 앞선 데이터들로 어떻게 로지스틱 알고리즘을 활용하여 결과를 도축하나요…? 학습과 레이블은 0,1식으로 되어있는데.. 감사합니다
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
[Stacking Model] 메타모델에 input 되는 데이터의 다중공선성 문제 질문
강사님 안녕하세요? 정말 좋은 강의 감사드립니다. 매 단원마다 도움을 많이 받고 있습니다. 본 단원에서 두 가지 질문이 있는데요 1. 메타모델의 input 이 되는 데이터들이 맨 아래 캡쳐 그림과 같은 형태가 된다면, 결국 어떤 기반모델들을 사용하던지 input 변수간 아주 강한 다중공선성 문제가 항상 생기게 될 텐데요, PCA 등으로 다중공선성 문제를 해결한 상태로 메타모델에 데이터를 input 할 필요는 없을지 문의드립니다. 사례에서 사용된 Logistic Regression 도 activation function term 을 제외하면 linear regression 과 유사한 개념으로 생각되는데요, 다중공선성이 강한 독립변수로 사용했을 때 모델의 신뢰도가 떨어지는 문제가 동일하게 생기지 않을까 생각도 되어서... 입니다. 2. 만약 전체 데이터셋을 Training / Validation / Test 데이터셋으로 삼중 분할 했다면 stacking 모델을 만들때 기반모델은 training set 으로 fitting 하고, Meta 모델을 fitting 할 때는 기반 모델에 validation set data 를 넣어서 예측된 output 들을 독립변수로 사용해야 하는 것인지요? 만약 training dataset 에 의해 예측된 output 들을 Meta 모델의 독립변수로 사용하게 되면 기반모델들의 온전한 성능을 표현하지 못하는 데이터로 메타모델을 fitting 하게 되기 때문에 (실제보다 마치 더 잘 맞는 것처럼 보이는 - overfitting) 메타모델의 실제 성능이 더 떨어질 가능성이 있고, 그래서 기반 모델에 validation data set 을 넣어서 얻은 output 들을 가지고 메타모델을 학습시켜야 하는 것으로 이해하면 될지요? 동일한 질문이지만 그냥 training dataset 만으로 기반모델과 메타모델을 모두 학습시키면 예측성능이 떨어진다고 간단히 이해하면 될지요? 감사합니다.