묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 RandomForest만 이용하여 계속 풀어도 될까요??
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 시험칠때, RandomForest만 이용하여 풀어도 될까요?? 분류는 f1-score 나 다른 식의 함수가 기억나지 않는다면 모델 학습 및 평가에서 RandomForestClassifier만을 사용해도 되나요?마찬가지로 회귀에서도 다른 식의 함수가 기억나지 않는다면 모델 학습 및 평가에서 RandomForestRegression만 사용해도 되나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
영상 튕김
영상 강의듣는데 지금 왜이렇게 튕기죠ㅠㅠㅠㅠ 열번 넘게 시도하는데 계속 튕겨나가서 시청을 못하네요ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
교재문의
선생님, 교재 117쪽df.sum(axis=1)로 한거....>>>>>>>>>> 방향으로 계산한 값 아닌가요? 그런데 3 8850 4 7950 이런식으로 어떻게 나오나요?ㅜㅜ도저히 공부하다가 이해가 안되서요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test_size
test_size 와 random_state를 정하는 기준이 따로 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
고유값 개수 확인
데이터 전처리 할때 컬럼의 고유값 개수를 알아보는 이유가 인코딩을 어떻게 할지를 알아보려고 한다고 이해하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc_score 문자형
안녕하세요. roc_auc_score문자형에서 양의 값이 두번째 컬럼인 B일 확률을 의미하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오류 질문
왜 이런 오류가 나는 지 궁금합니다 .그리고 혹시 오타가 난 채로 실행을 했을 때 이를 정정할 수 있는 방법도 있을까요?예를 들어, teest = test.pop['CLIENTNUM'] 이렇게 실행을 해버렸을 때 다시 정정가능한 방법있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
컬럼명 선택
cols = train.select_dtypes(include = 'object') 이런식으로 코드를 작성해서 전처리를 하면 문제가 생기나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션11 작업형2 문의
안녕하세요,섹션11 작업형2에서 문의드리고 싶은 것이 있습니다.아래 코드에서 train[cols]와 같이 cols를 선택하여 train 데이터셋을 분할하였음에도 불구하고,model.fit(X_tr[cols], y_tr)과 같이 모델학습 시에 파라미터에 값을 넣을 때도 반드시 따로 cols를 선택해서입력해야 하나요? 그리고, train 데이터셋에서 과적합을 방지하기 위해 id를 제거할 경우, 반드시 test 데이터셋도 동일하게 id 컬럼을 제거해줘야 하나요? 위 두 가지 문의드립니다. ############ from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train[cols], target, test_size = 0.2, random_state = 0) from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier()model.fit(X_tr[cols], y_tr)pred = model.predict_proba(X_val[cols])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pred 데이터프레임 행 개수 문의
안녕하세요 섹션11 예시 문제를 아래와 같이 작성해보았는데,모델을 통해 예측한 결과의 데이터프레임 shape이 평가용 데이터 개수와 동일하지 않고 학습용 데이터 개수와 동일하게 생성되었습니다.아래 코드의 어떤 부분에서 실수한 것인지 문의드립니다ㅠㅠ############################import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# 사용자 코딩# 결측치 채우기train['환불금액'] = train['환불금액'].fillna(train['환불금액'].mean())test['환불금액'] = test['환불금액'].fillna(test['환불금액'].mean())# 회원 ID 제거, test 데이터셋의 id는 일단 남겨둠# train = train.drop(['회원ID'], axis = 1)# test_id = test.pop('회원ID')# 타겟 데이터 분리X_train = train.drop(['성별'], axis = 1)y_train = train['성별']# 수치형 데이터, 범주형 데이터 구분n_train = X_train.select_dtypes(exclude = 'object')c_train = X_train.select_dtypes(include = 'object')n_test = test.select_dtypes(exclude = 'object')c_test = test.select_dtypes(include = 'object')# 수치형 데이터 Standard Scalingfrom sklearn.preprocessing import StandardScalercols = list(n_train.columns)scaler = StandardScaler()n_train[cols] = pd.DataFrame(scaler.fit_transform(n_train[cols]))n_test[cols] = pd.DataFrame(scaler.transform(n_test[cols]))# 범주형 데이터 Label Encodingfrom sklearn.preprocessing import LabelEncodercols = list(c_train.columns)for col in cols:le = LabelEncoder()c_train[col] = le.fit_transform(c_train[col])c_test[col] = le.transform(c_test[col])# 데이터들 다시 합침X_train = pd.concat([n_train, c_train], axis = 1)test = pd.concat([n_train, c_train], axis = 1)# train 데이터, validation 데이터 분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(X_train, y_train, test_size = 0.15, random_state = 0)# RandomForest 수행from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(random_state = 0)rf.fit(X_tr, y_tr)pred_proba = rf.predict_proba(X_val)# 검증from sklearn.metrics import roc_auc_scoreprint(roc_auc_score(y_val, pred_proba[:,1]))##################### baseline : 0.6064200601928629# 회원 ID 제거 안 함 : 0.6098212640501197# 실제 예측pred = rf.predict(test)submit = pd.DataFrame({'pred' : pred})submit.to_csv("result.csv", index = False)result = pd.read_csv("result.csv")print(result.shape)# 답안 제출 참고# 아래 코드는 예시이며 변수명 등 개인별로 변경하여 활용# pd.DataFrame변수.to_csv("result.csv", index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 4번 문제 중 select_dtypes
안녕하세요 !수업을 듣던 중 궁금한 점이 생겨 질문해봅니다.작업형1 모의문제2 4번 문제에서 object형 컬럼을 뽑기 위해 select_dtypes를 사용하셨는데 혹시 describe를 사용하는 건 안 되는 걸까요?두 함수의 차이점이 궁금하고 결과에서 어떤 차이가 생기는지 궁금합니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수치형 데이터 및 범주형 데이터 분리
안녕하세요 선생님수치형 데이터(n_train, n_test)와 범주형 데이터(c_train, c_test)를 분리하여 처리하는 이유가 있을까요? 분리했다가 합치는게 직관적으로 잘 이해가 안되어서요. X_train[cols] 또는 X_test[cols]로 처리하면 안되나요?아 그리고 train data만 fit_transform하고 test data는 transform만 하는 자세한 이유도 궁금합니다. 아직 학습 모델링 적용 전에 전처리 하는 과정에서도 학습을 하는건가요? (수치형만 학습, 범주형 중 원핫인코딩은 학습이 없는 것도 이유가 궁금합니다. )미리 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 1번 궁금합니다.
앞에서부터 70% 데이터 중 views 컬럼의 3사분위 수에서 1사분위 수를 뺀 값을 구하시오 라고 한다면, df = df[:int(len(df) * 0.7)]는 슬라이싱이라 끝 값이 포함 안되지 않나요,,? df2 = df.loc[:int(len(df) * 0.7)] 이렇게 되어야 하지 않나 해서 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모의 문제 3 관련하여 문의드립니다.
해당문제에서 trian과 test에서 id값을 전처리 과정에서 삭제하였는데, 아래 사진처럼 향후 예측모델 생성 시에, id 값도 예측하기 위해서 삭제한거라고 생각하면 되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 2강 데이터 불러오기
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 데이터 불러오면 name 'pd' is not defined 라고 에러메세지가 뜨는데 뭐가 문제인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
랜덤포레스트 rf.fit 과정에서 오류가 나와요.
첫번째 시도 두번째 시도딱 rf.fit(X_tr, y_tr) 이 부분에서 에러메시지가 뜨는데 두 가지 시도 전부 다 해도 문제네요.도저히 에러를 고칠 수 없어서 문의드려요.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기 시험에서 sql라이브러리 사용
안녕하세요 선생님 질문이 있어서 글남겨요 혹시 실기 시험에서 1유형 풀이시 sql라이브러리를 사용해서 풀어도 되나요? 제가 sql이 매우 익숙한 사람이여서요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
object 컬럼명 선택
그냥 object라고 쓸 때가 있고 ""붙이는 경우도 있는데, 이 차이가 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩 문서팝업 지우는 방법
안녕하세요.강의와 교재로 학습중입니다.코랩 환경에서 자꾸 문서 팝업이 떠서 불편하여 구글링을 해보았는데도 잘 안나와서혹시 방법을 아실까 하여 질문드립니다.사진과 같이 ( 를 칠때 이와 관련된 안내문서 창이 나타나는데, 이걸 안나타나게 하는 방법이 있을까요? 답변에 미리 감사드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
f3컬럼의 결측치 관련질문
선생님 해설에 보면 f3컬럼의 결측치를 replace로 활용하여 0으로 바꿀때 import numpy as npdf['f3'] = df['f3'].replace(np.nan,0)라고 되어있는데 제가 캡쳐한 화면처럼 풀어도 상관이 없는걸까요?