묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
그룹별로 최댓값 구하기
[코드 1]b = a.groupby(['neighbourhood_group','neighbourhood']).size().reset_index(name = '컬럼의 갯수')b = b.groupby(['neighbourhood_group'], as_index=False).max()print(b)[코드 2]b = a.groupby(['neighbourhood_group','neighbourhood']).size().reset_index(name = '컬럼의 갯수')b = b.sort_values('컬럼의 갯수', ascending=False)b = b.groupby('neighbourhood_group').head(1) 코드1번과 코드 2번의 결과값이 다른 이유가 무엇인지 모르겠습니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc_score 오류multi_class must be in ('ovo', 'ovr') 해석 및 해결 방법 문의 드립니다
roc_auc_score 시 multi_class must be in ('ovo', 'ovr') 오류 해석 및 해결 방법 문의 드립니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
메모리 오류 관련
안녕하세요작업형 2관련 마지막으로 시험환경으로 연습해보고 있는데 갑자기 'killed' 오류 메세지가 나면서 모델링이 되지 않습니다. 기존 코랩과 비슷하게 했는데 어떤 차이가 있을까요?? import pandas as pdX_test = pd.read_csv("data/X_test.csv")X_train = pd.read_csv("data/X_train.csv")y_train = pd.read_csv("data/y_train.csv")# 사용자 코딩pd.set_option('display.max_columns', None)pd.options.display.float_format = '{:.3f}'.formatX_train = X_train.drop('cust_id', axis = 1)cust_id = X_test.pop('cust_id')X_train = X_train.fillna(0)X_test = X_test.fillna(0)cols_n = ['총구매액', '최대구매액', '환불금액', '내점일수', '내점당구매건수', '주말방문비율', '구매주기']cols_c = ['주구매상품', '주구매지점']from sklearn.preprocessing import RobustScalerscaler = RobustScaler()X_train[cols_n] = scaler.fit_transform(X_train[cols_n])X_test[cols_n] = scaler.transform(X_test[cols_n])from sklearn.preprocessing import LabelEncoderfor col in cols_c: le = LabelEncoder() X_train[col] = le.fit_transform(X_train[col]) X_test[col] = le.transform(X_test[col])from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier(random_state = 38)model.fit(X_train, y_train)pred = model.predict_proba(X_test)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
튜닝 관련
안녕하세요 튜닝하다가 궁금한 점이 생겼는데요max_depth는 기본이 3이고 3~12 를 넣어보라고 하셨는데,2나 1을 넣어서 roc_auc_score가 높아지면 낮춰도 되는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
교재 및 강의 문의드립니다.
안녕하세요. 이제 막 강의를 듣기 시작했는데요. 혹시 교재는 별도로 판매하시나요?그리고..지금 커리큘럼에는 작업형 3에 관한 강의는 없는데요. 혹시 나중에 작업형 3에 관한 강의는 업데이트가 되는건가요? 아니면 작업형 3에 관한 것은 새소식에 올려주신 글들을 참고하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc
roc_auc로 할 때1) 이진 분류 구할 때(=양성인 확률값을 구하는 것)pred = 모델.predict_proba(X_val)roc_auc_score(y_val, pred[:,1])pred_final = 모델.predict_proba(X_test)submit = pd.DataFramd({'pred': pred_final[:,1]})2) 다중 분류 구할 때(= 각 클래스에 대한 확률값을 구하는 것)pred = 모델.predict_proba(X_val)roc_auc_score(y_val, pred,multi_class='ovr')pred_final = 모델.predict_proba(X_test)submit = pd.DataFramd({'pred': pred_final[:,1]})=> roc_auc를 쓸 때는 predict는 안쓴다고 보면 되는 건가용?=> 이 정도만 알면 되는 걸까용?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
model.fit에러
작업형2 기출2회 풀다가 에러가 생겨서 문의드립니다.원인이 뭘까요...ㅠ from sklearn.ensemble import RandomForestClassifier model= RandomForestClassifier(random_state=200) model.fit(X_tr,y_tr) pred=model.predict_proba(x_val) [전체코드]import pandas as pdX_train=pd.read_csv('X_train.csv')y_train=pd.read_csv('y_train.csv')X_test=pd.read_csv('X_test.csv')X_train=X_train.drop(['ID'], axis=1)IDX=X_test.pop('ID')from sklearn.preprocessing import LabelEncoderla=LabelEncoder()cols=['Mode_of_Shipment','Product_importance','Gender']for col in cols: X_train[col]=la.fit_transform(X_train[col]) X_test[col]=la.transform(X_test[col])from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val=train_test_split(X_train, y_train['Reached.on.Time_Y.N'], test_size=0.2, random_state=200)# 모델링from sklearn.ensemble import RandomForestClassifiermodel= RandomForestClassifier(random_state=200)model.fit(X_tr,y_tr)pred=model.predict_proba(x_val)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형질문입니다
대응표본과 독립표본이 정규분포를 따르는지 아닌지에 따라서 문제가 나올 가능성도 있나요?ex) wilcoxon, mannwhitneyu
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train_test_split는 언제 해야하나요?
항상 답변 감사합니다.어떤 문제는 train_test_split로 나누지 않았고, 5회차 작업형2에서는 나눴는데혹시 어떤 기준인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[]순서..
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요Print 구문에서[cond1]과 [‘views’]의 순서가 왜 이렇게 되는지 궁금합니다.print(df[‘views’][cond1].mean())는 안되나요?[] []이 나열되는 기준이 궁금합니다 ㅠㅠ잘 이해가 안가요… ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
쌍체표본 ttest_rel 질문입니다.
선생님 안녕하세요, ttest의 검정통계량을 구할 때, 입력된 순서에 따라 양수가 나오는경우와 음수가 나오는 경우가 있어 혼동이 되어 질문드립니다.stats.ttest_rel(A,B, alternative = 'less') 와 stats.ttest_rel(B,A, alternative = 'greater')을 같은 의미로 볼 수 있을까요? A와 B의 순서를 바꿔주고 alternative값을 반대로 바꿔준 경우입니다.이럴경우, t-score가 양수/음수값으로 나누어서 출력되는데, 어떤것이 맞는것인지 질문 드릴 수 있을까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
슬라이싱 관련
슬라이싱 관련 궁금한 점이 생겼는데요언제 iloc, loc를 사용하는 것일까요?열을 선택할 때 쓰는 것이라고 생각해왔었는데pred_proba에서 1일 확률을 선택할 때 iloc를 안 쓰더라구요...model = lgb.LGBMClassifier() model.fit(X_tr, y_tr) pred_proba = model.predict_proba(X_val) pred = model.predict(X_val) print(roc_auc_score(y_val, pred_proba[:,1])) print(accuracy_score(y_val, pred)) print(f1_score(y_val, pred)) submit = pd.DataFrame({ 'id' : id, 'output' : pred_proba[:,1] }) submit.head()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
타이타닉 작업형2 오류 질문입니다.
안녕하세요 강사님 타이타닉 작업형2 코드를 작성하던 중 발생한 오류는 아래와 같습니다.즉, X_train 컬럼 수와 X_test 컬럼 수가 달라 발생한 문제라고 인지하였습니다. 이를 해결하기 위해 강사님 코드를 참고하여 다른 점은 원핫 인코딩 대상 컬럼에 차이가 있었습니다. 저는 원핫 인코딩을 아래와 같이 작성하였으나,'Ticket', 'Cabin', 'Embarked' 컬럼을 지우니 문제가 해결되었습니다.'Ticket', 'Cabin', 'Embarked' 컬럼은 범주형 변수인데 원핫인코딩을 하지않고 넘어가는 이유와 위의 변수를 포함하여 원핫인코딩 했을 때 어떠한 이유로 오류가 발생하는지 질문드립니다.. 매번 친절히 답변해주셔서 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 model.fit 적용 문의
안녕하세요!!작업형 2번 공부하다가 문득 궁금증이 생겨 문의드립니다.model_selection의 train_test_split 이후 (X_train, y_train => X_tr, X_val, y_tr, y_val)RF, Lightgbm, Xgboost 등 여러 모델 테스트 후, 가장 성능 좋은 모델을 선정하여pred= model.predict(X_test)이렇게 결과물을 도출하는 과정에서요. 검증단계에서 model.fit(X_tr, y_tr) 이렇게 학습을 진행한 것을 바로 X_test에 predict를 하는데검증자료로 분할한 X_tr, y_tr이 아닌, 전체 X_train, y_train으로model.fit(X_train, y_train) 후에 pred= model.predict(X_test) 를 하면 결과가 더 좋을까요? 조금 더 성능을 높일 수 있는 방법인지 궁금해서 문의드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출유형 작업형1 2번문제
안녕하세요~ 데이터의 개수를 구할때 len과 sum의 차이가 궁금합니다 ㅠㅠ 예를들어 4회 기출유형 작업형1의 2번문제와 같은경우 문제 : (loves반응+wows반응)/(reactions반응) 비율이 0.4보다 크고 0.5보다 작으면서, type 컬럼이 'video'인 데이터의 갯수이고,최종 데이터 개수를 구할때 len 함수를 사용했습니다. 코드 : cond1 =(df['loves'] + df['wows'])/df['reactions'] > 0.4cond2 =(df['loves'] + df['wows'])/df['reactions'] < 0.5cond3 = df['type'] =="video"len(df[cond1 & cond2 & cond3])sum으로는 왜 안되는걸까요? ㅠㅠ 예시는 없지만 작업형1 유형에서 다른 문제는 데이터 개수를 구할때 sum을 사용한적도 있던것 같아서 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
음수값 처리는 어떻게 하나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 3000개 이상의 train 데이터에 대해 EDA할때 describe 함수를 통해 가격(음수가 있으면 안되는) 컬럼에서 - 값이 일부 있다는 것을 발견하면어떻게 이를 처리하는 것이 좋은지 그 방법, 함수를 알려주시면 감사하겠습니다!아예 그 행을 삭제하는 것, 음수값을 어떻게 대체할 수있는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모의고사 풀어보기2 관련 질문드립니다~!
안녕하세요! 모의고사 풀어보기2에서 시험환경 체험링크를 통해 하이퍼 파라미터 튜닝 했을때 하기와 같은 에러가 나와 문의드립니다. 그냥 n_estimators 만 썼을때는 나오지 않았던 에러라 뭔가 제가 잘못 코딩한 부분이 있는 것인지 아니면 시험환경에서도 learning_rate 에러가 뜰 수 있는지 문의드립니다. 항상 깔끔한 강의내용 정말 감사드립니다! 코딩내용 : from sklearn.ensemble import RandomForestClassifiermodel=RandomForestClassifier(random_state=2023,n_estimators=200,learning_rate=0.05)model.fit(X_tr,y_tr)pred_ex=model.predict(X_val)에러내용 : TypeError: init() got an unexpected keyword argument 'learning_rate'
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc_score
이진 분류 문제가 아닐 때, roc_auc_score에 파라미터 multi_class = 'ovr'사용해도 되나용?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 회귀모형 삭제 예정이라고 기재해주셨는데요,
작업형3 회귀모형 삭제 예정이라고 기재해주셨는데요,삭제 예정인 이유와, 해당 모형이 시험에 출제 확률이 적어서 삭제 예정이신걸까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
cut함수 describe결과의 ( ] 질문드립니다
질문이 약간 핑프스러워서 죄송합니다 ㅠcut 함수 리턴값의 describe 결과에 구간 표시 질문드립니다 예를 들어 (5, 12] 라고 하면 5 <= 구간 < 12 의 의미인지 궁금합니다