인프런 커뮤니티 질문&답변

너굴너굴님의 프로필 이미지
너굴너굴

작성한 질문수

빅데이터분석기사 실기대비 (R 활용)

작업형 2유형

작업형제2유형 질문입니다.

작성

·

155

0

auc값을 이용하여 모델을 제출할때 예를 들어

1번=>glm으로 나온 값 : 0.5

2번=>rpart로 나온 값 : 0.6

3번=>위의 2개를 더해 2로 나눈 값 : 0.55

라고 가정했을 때 auc값은 1에 가까울수록 좋은 모형으로 평가하기 때문에 rpart모델을 선택해서 최종 모델로 만든다음 제출해야 하는 거 아닌가요...?

수업내용들을 보면 3번을 제출하더라구요...

정확하게 이해가 안 갑니다.ㅠㅠ

 

답변 2

1

너굴너굴님의 프로필 이미지
너굴너굴
질문자

정말 자세한 답변 너무너무 감사합니다.!!!!

확실히 이해 했습니다.!!!

0

companionclub님의 프로필 이미지
companionclub
지식공유자

 

안녕하세요.

위에 질문하신대로 1에 가까운 모델이 좋은모델이 맞습니다.

두 모델의 산술평균값보다 단일 모델의 성능이 좋으면 그것을 제출해도 됩니다.

 

제가 3번을 제출한 이유는

우리가 답지를 모르는 test dataset (예측변수가 없는 데이터)는 평가가 불가능하기 때문에

단순히 각 관측치(행)별 확률만 제출하는 상황이 됩니다.

 

그 때, 그래도 그나마 안정적인 성능을 발휘하고자 하는 이유에서 산술평균을 냅니다.

사실 엄청나게 큰 차이가 나지는 않겠지만 일반적으로 단일모델보다는 결합모델이 성능이 안정적이기

때문입니다. 실제로 예측값의 auc가 rpart가 높을지 glm이 높을지 결합값이 높을지 알수가 없습니다.

우리는 답지를 알 수 없기 때문입니다.

그러나 확률적으로 결합한 모델의 예측값이 조금 더 나을 것이라는 기대를 가지고 결합을 하게 됩니다.

 

아마 데이터를 train/test로 분할하시는 코드를 다시 실행하고 모델을 만들때마다

각 모델의 예측확률이 계속 변화하고 어떤 모델이 좋았다가 나빴다가 할 것입니다.

어떤 데이터가 어떤 모델에 들어가느냐에 따라 변화합니다.

 

결론적으로, 높은 auc를 가지는 모델을 제출하는 것이 맞으나 확률적으로

강건하고 안정적인 모델의 결과를 제출하기 위해서 산술평균을 한다고 보시면 되겠습니다.

 

너굴너굴님의 프로필 이미지
너굴너굴

작성한 질문수

질문하기