묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
괄호 사용이 헷갈려서 질문드립니다.
예시는 9번문제로 질문을 하지만 9번문제 뿐만아니라 다른 문제를 풀이하는데 있어서 괄호 사용이 헷갈려서 질문드립니다.대충 대괄호하나는 시리즈로 불러오는거고 대괄호 2개는 데이터프레임으로 불러오는걸로 알고있었습니다. 그런데 문제를 풀면서 왜 groupby함수나 sort_values함수를 포함한 기타 다른경우에 소괄호안에 대괄호없이 컬럼명만 사용해도 되는지 궁금합니다. 컬럼명을 쓸때 대괄호를 써야할때와 필요없을때의 구분을 어떻게 해야할까요?import pandas as pd df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/members.csv') df['subscribed'] = pd.to_datetime(df['subscribed']) df['year'] = df['subscribed'].dt.year df['month'] = df['subscribed'].dt.month df['day'] = df['subscribed'].dt.day df = df.groupby('month').count() df.sort_values('subscribed').index[0]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
.
.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 사이트 내 강사님 사이트 알려주세요
수업을 들으면서 강사님께서 캐글에 있는 데이터와 함께 전처리 문제들을 올려놓으셨다고 하셨는데 제가 찾지를 못하겠습니다.주소를 알려주시면 들어가서 열심히 공부하겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 - 스케일링
안녕하세요!작업형2의 데이터 전처리 스케일링 관련하여 문의사항이 있어 질문 남깁니다.카테고리형 데이터의 경우, 라벨 인코딩, 원-핫 인코딩을 사용하고,숫자형인 경우, 표준화, 정규화를 사용하는 것 같은데, 각각의 기법을 언제 사용하는지 궁금합니다!데이터 타입별 기법들의 차이는 이해했는데, 어떤 경우에 어떤 기법을 선택해서 사용해야 하는지 문의드립니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형2] 랜덤포레스트 - 에러 문의
[작업형2] 3-5 Classification 에서 랜덤포레스트 따라서 하고 있는데요, 한번에 쭉 따라할때는 에러없이 실행되다가집에와서 다음부터 이어서 들으려고 파일 업로드하고 이전 셀 실행 하니깐 에러가 뜹니다.. 왜그럴까요..에러 내용은 갯수가 안맞다고 하는데 왜 안맞는걸까요....?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
RandomForestRegressor 오타
수업 내용 중 RandomForestRegressor를 사용한 경우 regressor = RandomForestRegressor()로 정의하셨는데, 뒷문장들은 model.fit(X_tr,y_tr)pred =model.predict(X_val)로 들어가있어요.오타가 맞는걸까요?regressor로 정의했기 때문에 regressor.fit(X_tr,y_tr)pred =regressor.predict(X_val)이 맞는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 질문
이제 막 2유형 공부중인데, 궁금한점이 있습니다.2유형의 경우에는 답이 없는 문제인 것 같은데,시험에서 요구하는 제출형식(인덱스 제거, 파일명 맞추기 등)에서 감점되는 것 외에 감점요소가 있을까요? 2유형 만점을 목표로 하고 있는데, 최소로 확보해야하는 성능이라던지의 최소치? 등이 있는 문제인지가 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
랜포 모델로 파일을 제출하려 하는데 predict_proba를 사용하나요?
5-2 type2 문제 (에어비앤비 가격) 문제에서는 pred = model.predict(test) 를 사용하는데5-3 type3 문제 (심장마비 확률) 문제에서 랜덤포레스트를 사용할 경우에도 pred=model.predict_proba(test)를 사용하나요? 평가지표에 roc-auc가 있으면 무조건 pred=model.predict_proba(test)로 예측한 후 DF변환을 해야 하나요? 아님 다른 기준이 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 문제를 풀 때 꼭 여러 모델을 돌려봐야할까요?
안녕하세요모델 검증 없이 그냥 xgboost 등 1개의 모델로만 예측하고 제출해도 무방한가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델링 및 평가(분류)
안녕하세요.모델링 및 평가(분류) 편 강의 보다가 문의드립니다.평가를 할 때 y_test 데이터가 등장하는데요. 실제 문제를 받을 때는 y_test데이터가 없었는데,accuracy score를 매겨보는건 제가 시험환경에서 해야 할 작업은 아닌걸까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
data.csv 어디서 받나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형1 모의문제 3 하려는데 data.csv 파일이 아닌 members.csv 파일이 받아집니다.어디서 받을 수 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모의문제 작업형 1 데이터 수 출력
정말 기초적인 것일거 같은데 데이터 수 출력할때 len과 sum을 활용하는데 어떨때는 sum으로 해야 답이 나오고 어떨때는 len으로 해야 답이 나오는데 언제 써야 하는지 정확히 이해가 안되요. 문제2) 주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고 해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함.그리고 30% 미만, 20% 이상인 결측치가 있는 컬럼은 최빈값으로 값을 대체하고'f3'컬럼의 'gold' 값을 가진 데이터 수를 출력하세요! import pandas as pd df = pd.read_csv('members.csv') # print(len(df)*0.3) df.isnull().sum()# f1 삭제, f3 최빈값 대체 df = df.dropna(subset=['f1']) df['f3'] = df['f3'].fillna(df['f3'].mode()[0]) df.isnull().sum() print(len(df['f3'] == 'gold'))print(sum(df['f3'] == 'gold'))이때 len으로 하면 답이 69개가 나오고, sum으로 하면 56개가 나오는데 답은 sum으로 할때 맞더라구요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
X_test 결측치 채울때, 오브젝트 vs 수치형 차이
수업에서 X_train 결측치 채울때, X_test도 같이 채우라고 설명해주시면서 예제에오브젝트 ['workclass'] 같은 것들은X_test['workclass'].mode()[0] 로 X_test의 최빈값으로 채우셨는데요 수치형 ['age] 같은 것들은 value 변수 따로 정의하면서value = int(X_train['age'].mean())로 X_train의 평균값으로 채우셔서요test데이터는 데이터 타입별 어떤 데이터로 결측치 채워야 하는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형(작업2)
모델 평가 부분에서 XGBOOST의 결과가 강의에서는 0.73709로 나오는데 저는 이와 다르게 0.7264 로 나옵니다.random_state = 2022 로 강의와 똑같이 설정한 경우에도 다른 값이 출력되기도 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 모의문제2 5번 문제
import pandas as pddf = pd.read_csv('members.csv')q3 = df['views'].quantile(.75)q1 = df['views'].quantile(.25)IQR = q3-q1print(IQR)여기서 자꾸 numpy.float64 라는 오류가 뜹니다 어떻게 해야 오류가 안뜰까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시계열 데이터 질문있습니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요오징어게임처럼 매일 학습할 수 있는 동기를 주셔서 감사합니다!5/25 오늘의 미션을 풀이하던중 질문이 있어 글남깁니다. 1.T1-18번 문항에 대한 질문입니다.주말을 따로 컬럼을 생성하시면서 apply 함수를 사용하셨는데, 이 함수부분이 아직 이해가 잘 되지 않아서요ㅠ df['weekend'] = df['dayofweek'].apply(lambda x: x>=5) 이 부분을 출력하면 weekend에 bool타입으로 값이 반환이 되었는데요!lambda x : x>=5 이부분에서 dayofweek가 5이상이면 true 값으로 apply 붙이세요 (?)라는 문법일까요 ... 저는 저 함수가 이해가 되지 않아서cond 조건을 붙여서 사용하긴했는데 .. 값은 똑같이 나오더라구요 df['dayofweek']=df['Date'].dt.dayofweek df=df.loc[df['Date'].between('2022-05-01','2022-05-31')] cond=df['dayofweek']>=5 a=df[cond]['Sales'].mean() apply함수를 필수로 알아둬야 하는 함수일까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출 유형(작업형3) 문제 1-1
문제에서 수컷일 오즈비 확률을 구했는데, 혹시 암컷일 오즈비 확률은 어떻게 구할 수 있을까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
fit할때 X_tr,Y_tr 이 아닌 train으로 할경우 문제
일단 실기가 명확한 풀이과정이 없기는 하기는 하나저는 X_tr, y_tr로 accuracy_score, precision_score, recall_score, f1_score, roc_auc_score 비교한 뒤에점수가 높은것을 바탕으로 다시 train을 fit시키는게 일반적으로 더 나은 전략이 아닌가싶은데(양이 더많으니까)혹시 이게 크게 리스크가 있다거나 혹은 의미가 없다고 볼수있을까요? 강의에서는 X_tr, y_tr로만 하고 끝내길래 궁금해서 여쭤봅니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 학습중에 결과값이 다르게 나옴+ROC_AUC스코어 오류
안녕하세요! 머신러닝 학습 중에 DT,RF,XGBOOST 모두 선생님이 하신 것과 동일하게 코드 작성하고 실행했는데 모두 결과값이 다르게 나와서요. 제가 무언가를 잘못 한 걸까요??이게 DT랑 RF는 결과값이 똑같이 나왔습니다.from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier() rf.fit(X_tr[cols], y_tr) pred = rf.predict_proba(X_val[cols]) pred[:10]array([[1.], [1.], [1.], [1.], [1.], [1.], [1.], [1.], [1.], [1.]])이게 XGB입니다.from xgboost import XGBClassifier xgb = XGBClassifier() xgb.fit(X_tr[cols], y_tr) pred = xgb.predict_proba(X_val[cols]) pred[:10]array([[9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05], [9.999634e-01, 3.657642e-05]], dtype=float32)그리고 이 예측데이터로 roc_auc 스코어를 뽑아내려고 하니 이런 오류가 뜨면서 안된다고 해서요. 무엇이 문제인지 궁금합니다ㅠㅠfrom sklearn.metrics import roc_auc_score roc_auc_score(y_val,pred[:,1])/usr/local/lib/python3.10/dist-packages/sklearn/metrics/_ranking.py in _binary_roc_auc_score(y_true, y_score, sample_weight, max_fpr) 337 """Binary roc auc score.""" 338 if len(np.unique(y_true)) != 2: --> 339 raise ValueError( 340 "Only one class present in y_true. ROC AUC score " 341 "is not defined in that case." ValueError: Only one class present in y_true. ROC AUC score is not defined in that case.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님거랑 데이터가 다른데요ㅜ.ㅜ
수업자료에 있는거 다운로드해서 자료 생성했는데 loc2001 찍었을때 결과가 달라요 ㅠ