묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
에러메세지와 마주하기 질문
안녕하세요. 섹션19에서 에러메세지와 마주하기 강의를 수강하는 중에 궁금한 점이 생겨 질문 남깁니다. 에러 3의 결측치로 인한 에러 부분 코드를 코랩, 시험환경에서 모두 실행해보았을 때 결측치를 채워넣지 않았음에도 에러 없이 잘 실행이 됩니다. 수정을 전혀 하지 않고 그대로 실행하였음에도 제대로 실행이 되어서 왜 그런지 알고싶습니다. 그리고 함수/조건문 에러 부분에서도 강의와 똑같이 들여쓰기를 했을 땐 에러가 나는데, 처음부터 함수 코드를 똑같이 작성했을 땐 에러가 나지 않습니다. 육안으로 보기에는 동일해보이는데 왜 들여쓰기만 한 코드로 실행했을 땐 에러가 나는건지 궁금합니다. (사진 상에서 빨간 색으로 표시해둔 부분이 원래 코드에서 들여쓰기만 한 부분이고, 주석처리된 노란색 표시 부분이 제가 똑같이 동일한 코드를 작성한 부분입니다.) 에러
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
제외값
어떤 값을 빼야하는 지 어떻게 정하시나요..?전 아직 감이 안잡힙니다 ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
numeric_only=True 관련 질문
시험 환경에서는 저 설정이 필요 없다고 하셨는데,체험 링크에서 설정 없이 그냥 corr, sum을 해보니까 valueerror가 뜨네요이번 시험부터 바뀐걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pred_proba 입력값의 차이
랜덤포레스트 모델 학습을 할 때.fit과, pred를 수행한 후 별도로 pred_proba를 수행하는데모델링의 pred_proba는 인자값으로 X_val이 주어지고, 예측할 때는 pred_proba의 인자값으로 test가 들어가게 되는데 왜 그런건가요 ?별도로 슬라이싱을 하지 않았는데, train_test_split 데이터 분리를 수행한 후 X_tr, X_val의 len 값은 test_size에 의해 결정되는 건가요? 예측할 때 pred_proba에 X_val 값을 넣었더니 길이가 서로 다르다고 실행이 되지 않는 것으로 확인했습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모의문제 질문드립니다.
9분에 id값을 삭제하는데 삭제하는 이유가 있을까요 ?nunique를 사용했을 때 값이 모두 제각각이라면 열 자체를 날려버려도 상관 없을까요 ? 예시) 주민등록번호 등..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 RandomForest만 이용하여 계속 풀어도 될까요??
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 시험칠때, RandomForest만 이용하여 풀어도 될까요?? 분류는 f1-score 나 다른 식의 함수가 기억나지 않는다면 모델 학습 및 평가에서 RandomForestClassifier만을 사용해도 되나요?마찬가지로 회귀에서도 다른 식의 함수가 기억나지 않는다면 모델 학습 및 평가에서 RandomForestRegression만 사용해도 되나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
영상 튕김
영상 강의듣는데 지금 왜이렇게 튕기죠ㅠㅠㅠㅠ 열번 넘게 시도하는데 계속 튕겨나가서 시청을 못하네요ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
교재문의
선생님, 교재 117쪽df.sum(axis=1)로 한거....>>>>>>>>>> 방향으로 계산한 값 아닌가요? 그런데 3 8850 4 7950 이런식으로 어떻게 나오나요?ㅜㅜ도저히 공부하다가 이해가 안되서요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test_size
test_size 와 random_state를 정하는 기준이 따로 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
고유값 개수 확인
데이터 전처리 할때 컬럼의 고유값 개수를 알아보는 이유가 인코딩을 어떻게 할지를 알아보려고 한다고 이해하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc_score 문자형
안녕하세요. roc_auc_score문자형에서 양의 값이 두번째 컬럼인 B일 확률을 의미하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오류 질문
왜 이런 오류가 나는 지 궁금합니다 .그리고 혹시 오타가 난 채로 실행을 했을 때 이를 정정할 수 있는 방법도 있을까요?예를 들어, teest = test.pop['CLIENTNUM'] 이렇게 실행을 해버렸을 때 다시 정정가능한 방법있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
컬럼명 선택
cols = train.select_dtypes(include = 'object') 이런식으로 코드를 작성해서 전처리를 하면 문제가 생기나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션11 작업형2 문의
안녕하세요,섹션11 작업형2에서 문의드리고 싶은 것이 있습니다.아래 코드에서 train[cols]와 같이 cols를 선택하여 train 데이터셋을 분할하였음에도 불구하고,model.fit(X_tr[cols], y_tr)과 같이 모델학습 시에 파라미터에 값을 넣을 때도 반드시 따로 cols를 선택해서입력해야 하나요? 그리고, train 데이터셋에서 과적합을 방지하기 위해 id를 제거할 경우, 반드시 test 데이터셋도 동일하게 id 컬럼을 제거해줘야 하나요? 위 두 가지 문의드립니다. ############ from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train[cols], target, test_size = 0.2, random_state = 0) from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier()model.fit(X_tr[cols], y_tr)pred = model.predict_proba(X_val[cols])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pred 데이터프레임 행 개수 문의
안녕하세요 섹션11 예시 문제를 아래와 같이 작성해보았는데,모델을 통해 예측한 결과의 데이터프레임 shape이 평가용 데이터 개수와 동일하지 않고 학습용 데이터 개수와 동일하게 생성되었습니다.아래 코드의 어떤 부분에서 실수한 것인지 문의드립니다ㅠㅠ############################import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# 사용자 코딩# 결측치 채우기train['환불금액'] = train['환불금액'].fillna(train['환불금액'].mean())test['환불금액'] = test['환불금액'].fillna(test['환불금액'].mean())# 회원 ID 제거, test 데이터셋의 id는 일단 남겨둠# train = train.drop(['회원ID'], axis = 1)# test_id = test.pop('회원ID')# 타겟 데이터 분리X_train = train.drop(['성별'], axis = 1)y_train = train['성별']# 수치형 데이터, 범주형 데이터 구분n_train = X_train.select_dtypes(exclude = 'object')c_train = X_train.select_dtypes(include = 'object')n_test = test.select_dtypes(exclude = 'object')c_test = test.select_dtypes(include = 'object')# 수치형 데이터 Standard Scalingfrom sklearn.preprocessing import StandardScalercols = list(n_train.columns)scaler = StandardScaler()n_train[cols] = pd.DataFrame(scaler.fit_transform(n_train[cols]))n_test[cols] = pd.DataFrame(scaler.transform(n_test[cols]))# 범주형 데이터 Label Encodingfrom sklearn.preprocessing import LabelEncodercols = list(c_train.columns)for col in cols:le = LabelEncoder()c_train[col] = le.fit_transform(c_train[col])c_test[col] = le.transform(c_test[col])# 데이터들 다시 합침X_train = pd.concat([n_train, c_train], axis = 1)test = pd.concat([n_train, c_train], axis = 1)# train 데이터, validation 데이터 분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(X_train, y_train, test_size = 0.15, random_state = 0)# RandomForest 수행from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(random_state = 0)rf.fit(X_tr, y_tr)pred_proba = rf.predict_proba(X_val)# 검증from sklearn.metrics import roc_auc_scoreprint(roc_auc_score(y_val, pred_proba[:,1]))##################### baseline : 0.6064200601928629# 회원 ID 제거 안 함 : 0.6098212640501197# 실제 예측pred = rf.predict(test)submit = pd.DataFrame({'pred' : pred})submit.to_csv("result.csv", index = False)result = pd.read_csv("result.csv")print(result.shape)# 답안 제출 참고# 아래 코드는 예시이며 변수명 등 개인별로 변경하여 활용# pd.DataFrame변수.to_csv("result.csv", index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 4번 문제 중 select_dtypes
안녕하세요 !수업을 듣던 중 궁금한 점이 생겨 질문해봅니다.작업형1 모의문제2 4번 문제에서 object형 컬럼을 뽑기 위해 select_dtypes를 사용하셨는데 혹시 describe를 사용하는 건 안 되는 걸까요?두 함수의 차이점이 궁금하고 결과에서 어떤 차이가 생기는지 궁금합니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수치형 데이터 및 범주형 데이터 분리
안녕하세요 선생님수치형 데이터(n_train, n_test)와 범주형 데이터(c_train, c_test)를 분리하여 처리하는 이유가 있을까요? 분리했다가 합치는게 직관적으로 잘 이해가 안되어서요. X_train[cols] 또는 X_test[cols]로 처리하면 안되나요?아 그리고 train data만 fit_transform하고 test data는 transform만 하는 자세한 이유도 궁금합니다. 아직 학습 모델링 적용 전에 전처리 하는 과정에서도 학습을 하는건가요? (수치형만 학습, 범주형 중 원핫인코딩은 학습이 없는 것도 이유가 궁금합니다. )미리 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 1번 궁금합니다.
앞에서부터 70% 데이터 중 views 컬럼의 3사분위 수에서 1사분위 수를 뺀 값을 구하시오 라고 한다면, df = df[:int(len(df) * 0.7)]는 슬라이싱이라 끝 값이 포함 안되지 않나요,,? df2 = df.loc[:int(len(df) * 0.7)] 이렇게 되어야 하지 않나 해서 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모의 문제 3 관련하여 문의드립니다.
해당문제에서 trian과 test에서 id값을 전처리 과정에서 삭제하였는데, 아래 사진처럼 향후 예측모델 생성 시에, id 값도 예측하기 위해서 삭제한거라고 생각하면 되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 2강 데이터 불러오기
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 데이터 불러오면 name 'pd' is not defined 라고 에러메세지가 뜨는데 뭐가 문제인가요?