묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼 파라미터 튜닝 시 질문드립니다!
안녕하세요 강사님!하이퍼 파라미터 튜닝 시 궁금한게 있어서 질문드립니다! train_test_split() 으로 데이터를 분리해서 모델 성능을 검증할 때, 하이퍼 파라미터 중 max_depth 값을 1을 줬을 때 검증에서는 성능이 제일 좋게 나오는 경우 1 값 그대로 줘도 괜찮나요?? 뭔가 max_depth=1 은 실제 값을 예측 할 때 좀 위험(?)하지 않을까 하는 의문이 들어서 질문드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[심화] 시계열 데이터 2
선생님 timedelta 자료형에서시간 컬럼끼리 - 연산자는 되는데더하거나, 곱하거나, 나누기는 안되더라구요. 혹시 -만 가능한걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
에러코드.
이유좀 알려주세요!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2, 원핫인코딩
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요예시문제 작업형2에서 원핫인코딩(pd.get_dummies)를 하고 작업형 2 한가지 방법으로 문제 풀기를 하면 오류가 발생합니다train과 test의 object인 주구매상품의 유니크 수가 달라서 그런간가요? 유니크 수가 다른 경우 그 컬럼만 삭제하고 작업형2 한가지 방법으로 풀기와 동일한 흐름으로 문제를 풀어도 될까요?(아래 첨부한 코드처럼요!)train = train.drop(['주구매상품'], axis=1) test = test.drop(['주구매상품'], axis=1) print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) print(train.shape, test.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험볼때 2유형부터 풀수 있나요?
시험볼때 순서대로 1유형의 1번부터 풀어야 하는지 아니면 자기가 편한 순서대로 풀수 있는지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 관련 질문
작업형3에 크게 두 문제가 있는데 부분점수가 있나요?ex) 1-1 O, 1-2 X, 1-3 X / 2-1 X, 2-2 X, 2-3 X1-1만 정답이고 나머지는 틀렸다면 부분점수가 있나요?!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 - 로지스틱 회귀 질문입니다.
위 문제에서, 독립변수로 income, 종속변수로 purchase 를 사용해 logit 로지스틱 회귀 모델을 만들어 학습하고나서, 예측을 할 때, test 의 test["income"] 을 predict( ) 함수 안에 넣어야 하는거 아닌가요?캐글 풀이에서는 test 전체를 넣어서 혼란이 옵니다. 그리고 이 문제에서 모델의 유의확률을 구하라고 했는데요.특정 독립변수의 PVALUE 가 아니라 모델의 P VALUE 이므로 위 model.summary() 에서 오른쪽 아래 쯤에 있는 LLR p-value 아닌가요?이 문제에서는 단순선형회귀라서 독립변수 income 의 p value와 LLR-P value 가 같긴 합니다만,만약 독립변수가 여러 개 이고, 모델의 pvalue를 구하라고 하면 LLR- P VALUE 가 맞을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 질문입니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 test데이터 예측할 때, train데이터를 훈련용과 검증용데이터로 분할해서 모델 검증하고 train데이터 전체로 모델 다시 학습해서 test데이터 예측하는 걸로 알고 있는데 다른 예시들 보니까 train데이터 분할해서 만든 모델로 그대로 test데이터 예측하시던데 상관 없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2
타겟값이 범주형일 때, 라벨인코딩 하기 전에 target=train.pop()을 통해서 타겟컬럼만 따로 빼주셨는데train.drop('Heat_Load',axis=1).select_dtypes(include='O').columns을 이용하여 컬럼값을 변수에 저장해놓고 라벨인코딩을 하는 것도 상관없는지 궁금하여 여쭈어봅니다 !!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
유니크 값이 다를때
유니크 값이 다를때는 라벨인코딩을 사용하면 상관없는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 csv 파일 제출
안녕하세요, 강사님.확인차 질문 드립니다. 작업형2에서 문제를 풀고 해당 코드까지 실행하여 result.csv가 잘 생성된 것을 확인했다면, pd.DataFrame({'pred': pred}).to_csv('result.csv', index=False)print (pd.read_csv('result.csv')) 여기에서 바로 '제출' 버튼만 누르면 result.csv의 제출이 완료되는게 맞는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출 작업형 2 결과값 소수자리수 질문
안녕하세요. 3회 기출 작업형 2 결과값 질문드립니다.예시답안은 소수점 여섯째자리까지 나왔는데저는 소수점 두자리까지 나왔습니다..채점해보니 0.7817221067221068이 나오긴 했습니다.강의에서 제가 놓친 부분이 있을까요.표현 자리수의 별도 설정이 필요한지, 코딩의 미흡함인지 알고싶습니다.답변 부탁드립니다. 감사합니다.(강의와 동일하게 수치형 4컬럼 - 로버스트 스케일링, 범주형 - 원핫인코딩, 분리 및 병합 X,원핫인코딩만 적용해도 동일한 자리수 결과)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경 2유형 pred 제출 관련
체험환경 문의하기로 고객의 예측 성별(0: 여자, 1:남자) 에서 평가지표는 ROC_AUC이고 (pred 결과 양성일 확률)CSV파일 예시는 0, 1 로 되어있어 (pred 결과 0, 1) 어떤형식으로 제출하는게 맞는건지 문의해봤는데저렇게 답이왔어요. 아무리 생각해도 이상한데 뭐가 맞는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모의고사 1유형
모의고사 1회 입니다아래 코드에 틀린건 없을까요?최종적으로 제출할때 print는 여기에 1개만 있어야하는거죠?print(roc_auc_score(y_val, pred[:,1])) 평가지표에 print 하면 안되는거맞죵? 확인부탁드립니다. #기출1회 import pandas as pd train = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv") #***********************데이터확인 # print(train.shape, test.shape) # print(train.head()) #target=성별# print(test.head()) #문자형2개# print(train.info()) #결측치 있음# print(train.isnull().sum())# 환불금액 2295# print(test.isnull().sum())# 환불금액 1611 #***********************전처리 *결합it인 #결측치제거/있음train['환불금액']=train['환불금액'].fillna(0)test['환불금액']=test['환불금액'].fillna(0) #train합치기/없음# pd.concat([X_train, y_train['성별']],axis=1) #id없애기/있음train= train.drop('회원ID',axis=1)test_id= test.pop('회원ID') #t타켓target=train.pop('성별') #인코딩from sklearn.preprocessing import LabelEncoder# from sklearn import preprocessing# print(dir(preprocessing))# print(help(preprocessing.LabelEncoder)) cols= train.select_dtypes(include='object').columns for col in cols : le= LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) #***********************분리from sklearn.model_selection import train_test_splitfrom sklearn import model_selection# print(dir(model_selection))# print(help(model_selection.train_test_split))X_tr, X_val, y_tr, y_val = train_test_split( train, target, test_size=0.2, random_state=2022) #***********************모델from sklearn.ensemble import RandomForestClassifier# model= RandomForestClassifier(random_state=0)model= RandomForestClassifier(random_state=0, max_depth=7, n_estimators=1000)model.fit(X_tr, y_tr)pred= model.predict_proba(X_val) #***********************평가from sklearn.metrics import roc_auc_score# from sklearn import metrics# print(dir(metrics))# print(help(metrics.roc_auc_score))print(roc_auc_score(y_val, pred[:,1])) # 0.6186558526810393 (random_state=0)# 0.6641618297401879 (random_state=0, max_depth=7, n_estimators=1000) #***********************예측pred= model.predict_proba(test)[:,1]result= pd.DataFrame({ 'pred':pred}) #***********************저장result.to_csv('result.csv', index=False)print(pd.read_csv('result.csv'))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실행결과 전체보기
안녕하세요.시험환경에서 데이터프레임이 해당 이미지처럼 중간에 생략되지 않고 전체적으로 보는 방법이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
패널티, 1-오즈비 값 문의
# 작업형3 # 문제1. 주어진 조개 데이터 300개 중 앞에서부터 210개는 train 데이터로 만들고, 나머지 90개는 test데이터로 만든다. # 모델을 학습(적합)할 때는 train데이터를 사용하고, 예측할 때는 test데이터를 사용한다. # 모델은 로지스틱 회귀를 써서 성별(gender)을 예측하되, 패널티는 부과하지 않는다. # 문제1-1. weight를 독립변수로 gender를 종속변수로 사용하여 로지스틱 회귀 모형을 만들고, # weight 변수가 한 단위 증가할 때 수컷일 오즈비 값은? (반올림하여 소수 넷째자리까지 계산)이 문제에서패널티는 부과하지 않는다. --> 만약 패널티를 "부과하라"는 문제가 나오면 어떤 공식을 추가해야 하나요?수컷일 오즈비 값은? --> "암컷"일 오즈비 값은? 이라는 문제가 나오면 어떻게 해야 하나요? 1에서 오즈비 값을 빼면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
잔차이탈도
기존 강의 내용인 glm을 이용해도 무방한거죵?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
RMSE 방법
안녕하세요. 좋은 강의 잘 듣고 있습니다. 강사님께서 RMSE를 만들 때 함수를 만들어서 사용하시는데mean_square_error를 불러온 다음mean_squared_error(squared=False)를 하면 RMSE가 되는 것으로 알고 있습니다.굳이 함수를 만드는 것보다 더욱 쉬울 것 같은데 함수를 만들어 사용하시는 이유가 궁금합니다. 좋은 강의 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
파라미터 튜닝 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요!이전에 random forest classifier에서는 n_estimators랑 max_depth로 파라미터 튜닝이 가능하다고 말씀해 주셨는데요.제 기억에 분류 모델에서만 적용이 가능했던 것 같은데 Random forest regression에서도 적용해도 되는 걸까요?rf = RandomForestRegressor(random_state=0, n_estimators = 500, max_depth = 5)이렇게요..! 그리고 각 파라미터의 적정 range가 어느 정도인지도 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전체 행,열 보이게 하기
pd.set_option(diplay.max_columns, 'None') 으로 전체컬럼 보기 말씀해주셨는데 혹시 취소하는방법도 알수있을까요? colab에서 지우고 실행해봐도 계속 전체 데이터가 보여서요 ㅠㅠ