인프런 커뮤니티 질문&답변

dotorii님의 프로필 이미지
dotorii

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제3

시험환경에서 세션종료

해결된 질문

작성

·

21

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

코랩에서는 제대로 돌아가는 코드를 시험환경에 넣었더니 실행시간 1분이 넘어 세션이 종료됩니다ㅠ

잘못된 부분이 있는지, 혹시 시험시간에도 이런 상황이 생긴다면 해결방안 있을까요?

import pandas as pd

train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/heart/2files/train.csv")
test =  pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/heart/2files/test.csv")
# train = pd.read_csv("train.csv")
# test =  pd.read_csv("test.csv")
#train.shape, test.shape #((242, 15), (61, 14))
#train.isnull().sum() #결측치 없음
y_train = train['output']
train = train.drop(['id', 'output'], axis=1)
test_id = test.pop('id')
#train.shape, test.shape #((242, 13), (61, 13))
n_cols = train.select_dtypes(exclude='O').columns
c_cols = train.select_dtypes(include='O').columns
n_train = train.select_dtypes(exclude='O').copy()
c_train = train.select_dtypes(include='O').copy()
n_test = test.select_dtypes(exclude='O').copy()
c_test = test.select_dtypes(include='O').copy()

#스케일러
from sklearn.preprocessing import StandardScaler
Scaler = StandardScaler()
n_train[n_cols] = Scaler.fit_transform(n_train[n_cols])
n_test[n_cols] = Scaler.transform(n_test[n_cols])
#인코딩
from sklearn.preprocessing import LabelEncoder
LE = LabelEncoder()
for col in c_cols:
  c_train[col] = LE.fit_transform(c_train[col])
  c_test[col] = LE.transform(c_test[col])
#합치고 검증데이터 분리
X_train = pd.concat([n_train,c_train], axis=1)
X_test = pd.concat([n_test,c_test], axis=1)
#X_train.shape, X_test.shape #((242, 13), (61, 13))

from sklearn.model_selection import train_test_split
x_tr, x_val, y_tr, y_val = train_test_split(X_train, y_train, test_size=0.15, random_state=2024)
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(x_tr,y_tr)
y_val_pred = model.predict_proba(x_val)

from sklearn.metrics import roc_auc_score
score = roc_auc_score(y_val,y_val_pred[:,1])
#print(score) #0.9092261904761905
pred = model.predict_proba(X_test)

df = pd.DataFrame({
    'id': test_id,
    'output': pred[:,1]
})

df.to_csv('010100.csv', index=False)

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

시험 환경은 외부 링크를 통해 데이터를 불러올 수 없게 막아놨습니다.

https://youtu.be/itpyENaADM4

로 할 수는 있습니다.

 

0

안녕하세요, 인프런 AI 인턴입니다. 구희원님의 질문에 대해 도움을 드리겠습니다.

시험 환경에서 세션이 종료되는 문제는 주로 리소스(메모리, 프로세서 시간)를 많이 소모하는 코드가 원인일 수 있습니다. 여기서 문제가 발생하는 부분과 해결 방법에 대해서 몇 가지 제안을 드립니다:

  1. 데이터 규모 확인:

    • traintest 데이터의 크기를 먼저 확인하시기 바랍니다. 만약 데이터가 매우 크다면, 메모리 문제로 세션이 종료될 수 있습니다.
    • 코드를 실행하기 전에 데이터의 크기를 줄여서 시험해 볼 수 있습니다.
  2. 모델 및 하이퍼파라미터

    • RandomForestClassifier()의 기본 설정이 많은 리소스를 소모할 수 있습니다. 최대 깊이(max_depth)나 사용되는 트리의 개수(n_estimators)를 낮춰서 리소스를 절약해보세요.
    • n_estimators를 줄여 보십시오. 기본값이 100으로 설정되어 있는데, 이 값을 줄이면 실행 시간이 단축될 수 있습니다.
  3. 코드 최적화

    • LabelEncoder는 특정 상황에서 비효율적으로 동작할 수 있으니, 필요한 경우 다른 인코딩 방법을 고려해보세요. OneHotEncoder와 같이 메모리를 많이 소모하지 않는 방법을 사용해 볼 수 있습니다.
    • StandardScaler 또한 사용할 스케일러를 선택할 때 연산 부담이 적은 방법을 고려해보십시오.

이와 더불어, 시험 환경에서의 처리 방식은 코랩 환경과 다를 수 있기 때문에 시험 전에 로컬 환경에서 충분히 테스트해 보는 것이 좋습니다. 실행 시간을 줄이기 위해서는 모델의 복잡성을 줄이고, 로컬로 데이터를 충분히 최적화해보는 연습을 해보세요.

비슷한 문제 해결에 대한 참고 자료를 다음 링크에서 확인하실 수 있습니다:
- 작업형2 모의문제2, {특히, 코드 최적화 및 리소스 관리 팁을 얻기 위해서 기존의 유사한 사례들을 참고해보세요.}

저는 질문자님의 이해를 돕고자 기존 답변을 바탕으로 유사한 해결책 링크를 추천드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면 언제든지 질문해 주세요. 지식공유자분께서 곧 도움을 주실 것입니다.

dotorii님의 프로필 이미지
dotorii

작성한 질문수

질문하기