묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가데이터
from sklearn.ensemble import RandomForestClassifierrf=RandomForestClassifier(random_state=2022)rf.fit(x_tr, y_tr) #학습시킴pred=rf.predict(test) #문제 풀어봄 f1_score(정답데이터, pred) 만약 시험장 간다면 predict에 test데이터를 넣어야할텐데 f1_score에 들어갈 정답 데이터는 홀드아웃 교차검정시 쪼개진 데이터에서는 없는게 맞나요?? 시험출제자가 주지는 않겠지만 y_test가 정답데이터가 되는거죠???그럼 만약 시험 출제자분께서 y_test를 준다면 from sklearn.ensemble import RandomForestClassifierrf=RandomForestClassifier(random_state=2022)rf.fit(x_tr, y_tr) #학습시킴pred=rf.predict(test) #문제 풀어봄 f1_score(y_test, pred) 이렇게 되는게 맞는거죵?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션 9 강의내용 질문(일원분산분석)
안녕하세요, 섹션 9 일원분산분석 강의 8:34 경 질문있습니다.사후검정으로 일원분산분석시에도 어떤 집단에서 유의미한 차이가 있는지를 학습하고 이해했는데요.# Bonferroni(본페로니)mc = MultiComparison(df_melt['value'], df_melt['variable']) bon_result = mc.allpairtest(stats.ttest_ind, method='bonf') print(bon_result[0])(질문1) 마지막줄에 bon_result[0] 왜 0이 들어가게 된 건지 설명 부탁드리겠습니다. (질문2) 혹시 가설검정 H0 채택/기각 여부 외에 이런부분까지도 출제될 수 있는건가요? (다른 강의를 듣다가 넘어왔는데, 이 부분은 완전 처음들어봤습니다..) 시간이 얼마 없어서, 다른 부분(2유형 코드짜는걸) 집중해서 암기하려고 하는데 조언 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 답안제출 질문 있습니다
이진분류 모델을 제출할떄는 보통 pred부분에 확률을 적어서 제출하는게 일반적일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 데이터 병합
캐글 작업형 1 T1 - 20b1와 b3 데이터를 f4 기준으로 병합하기 위해서df = pd.merge(left = b1, right = b3, how = 'left', on = 'f4') 식을 사용하셨는데 혹시 여기서 how = 'left'의 의미는 무엇인가요?? 이 문제를 pd.concat으로도 풀 수 있는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 작업형1 - T1 19번
선생님 캐글 작업형1 19번 문제에서 "events컬럼이 '1'인경우 80%의 Salse값만 반영함" 을 def event_sales(x): if x['Events'] == 1: x['Sales2'] = x['Sales']*0.8 else: x['Sales2'] = x['Sales'] return xdf = df.apply(lambda x: event_sales(x), axis=1) #1일 경우 row, 0일 경우 컬럼df.head() 이 풀이방식 외에 좀 더 간단한 식은 없을까요? 이해하기가 좀 어려워서요 ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분산분석
주어진 데이터는 4가지 다른 교육 방법을 적용한 대학생들의 학점 결과이다. 이 실험에서는 비슷한 실력을 가진 학생 40명을 무작위로 4개(A, B, C, D)그룹으로 나누었고, 각 그룹은 다른 교육 방법을 적용했다. 학생들의 학점 결과에는 교육 방법에 따른 차이가 있는지 유의수준 0.5하에서 검정하시오.귀무가설(H0): 네 가지 교육 방법에 의한 학생들의 학점 평균은 동일하다.대립가설(H1): 적어도 두 그룹의 학점 평균은 다르다. 해당 문제의 사후분석에서, stats.ttest_ind는 4개의 그룹이 독립표본이라 그런건가요?만약 대응표본이라면 mc.allpairtest(stats.ttest_rel, method='bonf')이라고 쓰면 될까요? # Bonferroni(본페로니) mc = MultiComparison(df_melt['value'], df_melt['variable']) bon_result = mc.allpairtest(stats.ttest_ind, method='bonf') print(bon_result[0])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험형 작업유형2번질문
올려주신 한가지 방법으로 이문제저문제 풀어보고있습니다!. 빅분기 실기 체험 작업유형2번 질문에서 계속오류가나는데 어떻게해결할 수 있을까요>?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 평가지표 검증관련
작업형2 평가지표 검증하면 나오는 결과값이 강의답안 결과값이랑 다른경우에도 오답이 아니라고 생각하면 될까요?예를 들어 강의답안은 1411.223 인데, 제 답안의 경우 1399.1234 등으로 타입,소수점 등은 같은데 실제 수치가 다른 경우에요 (같은 모델을 쓴 경우에) 같은 데이터셋으로 작업해도 random_state? test_size등 개인의 설정값에 따라 지표값이 달라지는 것인지도 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출유형(작업형2) 성능평가 질문
7회 기출유형(작업형2)에서 문제에 언급된 rmse 이외에 결정계수(r2_score)로 평가해보려고 했는데, 음수값이 나옵니다. 이렇게 음수값이 나올 경우 모델이 잘못된 건 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 선택 기준!
선생님!원핫 / 라벨 인코딩을 언제 써야할 지 기준이 있으신가요?강의 언제쩍에 보면 라벨인코딩이 어지간하면 다 통한다고언급하신적이 잇었는데... 사실 저는 제출이 목표라 둘중에 아무거나 쓰긴할꺼지만ㅠㅠㅠ 기준이 있으신지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[py] T1-13. 상관관계 구하기 Expected Questions
안녕하세요 강사님캐글의 공유해주신 작업 1유형 문제 중 아래 링크의 문제 관련 질문드립니다. # 상관관계 구하기 # 주어진 데이터에서 상관관계를 구하고, quality와의 상관관계가 가장 큰 값과, 가장 작은 값을 구한 다음 더하시오! # 단, quality와 quality 상관관계 제외, 소수점 둘째 자리까지 출력처음 지문을 보고 문제를 혼자 풀이 하였을 땐, 상관관계가 가장 큰 값과 작은 값에 대해 절대값으로 확인하라는 내용이 없어서 절대값을 고려하지 않고 문제를 풀이했습니다. 이후 풀이 코드를 확인했을 땐 절대값으로 확인하고 풀이한 내용이 들어있어 질문드립니다.제가 비전공자라 기본 지식이 부족해서 조금 헷갈리는데, 위와 같은 맥락의 문제에서는 지문에 따로 '절댓 값' 이라는 언급이 없어도 기본적으로 절대값으로 구해야한다는 전제를 깔고 풀이해야하나요? (절댓값 유무의 따라 결과값 달라짐)문제 지문에서는 '소수점 둘째 자리까지 출력' 이라고 적혀있었는데 풀이 코드에서는 round() 함수를 사용해서 정답을 출력하고 있습니다. 해당 문제에서의 정답에는 큰 영향은 없었지만 풀이중 궁금해서 질문드립니다.별도의 버림, 올림, 반올림 등의 조건이 없는 지문에 대해서는 기본적으로 round() 함수를 사용하면 될까요? https://www.kaggle.com/code/agileteam/py-t1-13-expected-questions
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
샤피로윌크, 윌콕슨 질문
샤피로윌크 검정과, 윌콕슨 검정시에 어떨때는 df[~] 콤마 df[~]이 들어가고 어떨땐 df[~] - df[~]가 들어가는지 헷갈립니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형(작업형2) 오류가 나서요 ㅠ
2회 기출 작업형2 하다가 오류가 나서 문의드립니다.랜덤포레스트 부분입니다. # 랜덤포레스트 from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(random_state=0)model.fit(X_tr,y_tr) pred = model.predict_proba(X_val)이렇게 오류가 나는데 ㅠㅠ왜그런걸까요.....
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터를 합쳤다가 인코딩한 후 분리
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요df.iloc[:,line] 이 부분에서 line이 갑자기 정의도 안하고 왜 튀어나오는지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
독립표본 검정 변수 순서
독립표본 T 검정시에ttest_ind(A,B)를 통해 검정하는데A,B순서에 따라 t_score값의 부호가 바뀌게됩니다시험에서 t_score의 값을 물어보는 경우 변수 순서를 어떻게 정해야 정답이 될 수 있을까요?아니면 절대값만 볼까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형1)
작업형 1의 세번째 문제를 혼자 풀고 풀이를 보며 비교해보니 답이 조금 달라 질문드립니다.import pandas as pd df = pd.read_csv("members.csv") a= df.isnull().sum() # print(a) print(a.sort_values(ascending=False).index[0]) 저는 위처럼 풀어 f1이라는 답을 냈지만 풀이의 답은 'f1'입니다. ( 작은 따옴표의 차이)이 같은 경우에는 제 풀이가 오답이 되는 것인지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중 회귀 분석에서 유형[T.C]의 의미 (영상 37초)
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요제목 그대로 다중선형 회귀 분석 시에 from statsmodels.formula.api import olsmodel=ols('종속~독립1+유형(범주형)',data=df).fit()하고 summary() 했을 때 유형[T.C] ,유형[T.B] 이것의 의미는 뭘까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 채우기 질문
안녕하세요 수치형 변수 결측치를 채울 때X_test 데이터에는 X_test의 age 평균값이 들어가야 한다고 생각했는데X_test['age'] 에 X_train['age']의 평균값을 넣는데 이유가 있을까요?주당 근무시간에 대해서도 test 데이터에 train 데이터의 중앙값을 넣어주던데 같은 질문입니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형2) 채점부분 질문
채점부분 코드 돌리려는데, 이렇게 오류가 뜨네요.제 풀이는import pandas as pdfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefrom sklearn.metrics import precision_scorefrom sklearn.metrics import recall_scorefrom sklearn.metrics import f1_scorefrom sklearn.metrics import confusion_matrixfrom sklearn.metrics import roc_auc_scoredf1 = pd.read_csv('/content/drive/MyDrive/bigdata(빅분기 놀이터)/기출문제/3회/train.csv')# print(df1.head())# print(df1.info())# print(df1.describe())df2 = pd.read_csv('/content/drive/MyDrive/bigdata(빅분기 놀이터)/기출문제/3회/test.csv')# print(df2.head())# print(df2.info())# print(df2.describe())df1['TravelInsurance'] = df1['TravelInsurance'].astype('category')x = df1.drop('TravelInsurance', axis=1)y = df1['TravelInsurance']x_encoded = pd.get_dummies(x)x_train, x_valid, y_train, y_valid = train_test_split(x_encoded.drop('Unnamed: 0', axis=1), y, test_size=0.25)md = RandomForestClassifier(n_estimators=300)md.fit(x_train, y_train)pred = md.predict(x_valid)cm = confusion_matrix(y_valid, pred, labels=[1,0])print(cm)print(accuracy_score(y_valid, pred))print(precision_score(y_valid, pred))print(recall_score(y_valid, pred))print(f1_score(y_valid, pred))print(roc_auc_score(y_valid, pred))x_test = df2x_test_encoded = pd.get_dummies(x_test)md = RandomForestClassifier(n_estimators=300)md.fit(x_encoded.drop('Unnamed: 0', axis=1), y)pred = md.predict_proba(x_test_encoded.drop('Unnamed: 0', axis=1))# print(pred)result = pd.DataFrame({'y_pred' : pred[:, 1]}).reset_index()print(result)result.to_csv('기출유형 3회 (작업형2) 답안.csv', index = False)입니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 3형 질문
# 1) 학습 데이터와 테스트 데이터 분리 X_train = train[['weight']] y_train = train['gender'] X_test = test[['weight']] y_test = test['gender']x_train, x_test는 대괄호가 2개고, y_train, y_test는 대괄호가 1개인 이유가 무엇인가여....