데이터나누기/자체예측하기/출력 전 데이터프레임만들기

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

해결된 질문

작성

482

수정됨

코드 필사하면서 연습중인데 2유형의 경우, 항상 동일한 부분에서 어려움을 느끼고 있습니다.
(이론을 완벽하게 이해하지 못한상태에서 따라만하기에 나타나는 문제점 입니다)
기출2회를 풀어보면서 어려움을 느끼는 부분을 표시해 드릴테니
왜 그 컬럼이 그 부분에 들어가는지 문제와 매칭하여... 설명해주실 수 있으실까요?

더불어서 기출 4회 기준으로도 왜 그 코드가 들어가는지 추가설명해주시면
감사하겠습니다.

[기출2회 기준]
#데이터 나누기
항상 "문제"가 바뀔때마다 1번과 2번위치에 뭘 넣어야할지 헷갈립니다.
이것저것 넣어봣는데 다 에러가 떠서....아래의 기준이 맞는지요?
1번위치: x_train data set에서 id를 제외한 데이터들?
2번위치: 출력이미지 기준으로 예측할 컬럼?

저는 LightGBM기준으로 돌려봤는데, EDA 후object형을 카테고리화 한후 x_train data set에서 id컬럼만을 pop하는 과정을, 데이터 나누기 전에 미리 해줘야하는지요?

X_test_ID=X_test.pop('ID')

from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(y_train.drop('Reached.on.Time_Y.N',axis=1),
                                            y_train['Reached.on.Time_Y.N'],
                                            test_size=0.2,
                                            random_state=2000,
                                            )

import lightgbm as lgb
model=lgb.LGBMClassifier(random_state=2000, max_depth=7, n_estimator=100, learning_rate=0.01)
model.fit(X_tr, y_tr)
pred=model.predict_proba(X_val)
pred

# 자체예측하기

아래 3번도 문제가 바뀔때마다 어떤것을 넣어야할지 잘 모르겠습니다.

from sklearn.metrics import roc_auc_score
roc_auc_score(y_val,pred[:,1])

# random_state=2000, max_depth=5, n_estimator=100, learning_rate=0.01 / 0.7278342882937344

#최종제출전 데이터프레임만들기
위에와 자꾸연결되는 부분인거 같은데
설정을 잘못해주니 4,5번도 어떤것을 넣어햐하는지 헷갈립니다.

데이터프레임 제목은 문제에 주어진 "출력할이미지"를 보고 가지고오지만
4번의 경우는 id별로 도착하지 않을 확률을 구하는게 문제이니까
X_train의 아이디를 가지고오는것같고
5는 문제에서 주어진 예측값인 도착하지 않는 확률이 있는 열을 넣어주는거 같은데
이게 위 코드에서 설정했던 값과 어떻게 이어지는건지 잘 이해되지 않습니다.
4번의 경우, x_train data set에서 id컬럼만을 pop하는 과정?에서 X_test_ID가져옴..