묻고 답해요
143만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분위수 구하는 문제 질문 있습니다!
'age 컬럼의 3사분위수와 1사분위수의 차를 절대값으로 구하고'에서 1사분위가 0.25이고 3사분위가 0.75라고 알고 있는데, 차이를 구하라고 한다면 보통 두 값을 빼서 구해야 할텐데, 강의 에서는 1사분위(0.25) - 3사분위(0.75)로 계산을 하여 90이라는 값이 나왔는데 3사분위 - 1사분위 하면 값이 다르게 나올텐데 어떻게 구해야하나요? 차는 무조건 1사분위 - 3사분위 일까요?(너무 기본적인 질문이라 죄송합니다.)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출2회 작업형1 문제3
df.head() mean = df['age'].mean() std = df['age'].std() lower = mean - (std*1.5) upper = mean + (std*1.5) cond1 = df['age'] < lower cond2 = df['age'] > upper print(df[cond1|cond2]['age'].sum()) # cond1 = (df['age'].mean() - (df['age'].std())*1.5) > df['age'] # cond2 = (df['age'].mean() + (df['age'].std())*1.5) < df['age'] # print(df[cond1|cond2]['age'].sum()) 어떤 부분에서 틀린걸까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
'numpy.ndarray' 개체에 'columns' 속성이 없습니다
'numpy.ndarray' 개체에 'columns' 속성이 없습니다 이건 무엇이 잘못된것일까요? 2유형 풀다가X_scaled.columns =X_scaled.columns.astype(str) test_scaled.columns =test_scaled.columns.astype(str)에서 에러가 났어요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3, chisquare
1-2. 감기약의 예상 부작용 비율과 항암약의 부작용 관찰값이 통계적으로 유의미하게 차이가 있는지 확인하려 한다. 카이 제곱 검정을 사용하여 검정 통계량을 구하시오.의 문제에서..풀이를 비율로 했더니..실제 풀이에서 ex = [0.1 * 20, 0.05 * 20, 0.15 * 20, 0.7 * 20]이렇게 원래 명 수로 계산한 것와 검정통계량p값이 다 달라지네요...문제에서는 사실 어떤방식으로 명시하진 않았지만,일반적으로 명수로 풀이를 해야하는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모델링 기법 선정
안녕하세요! 작업형2에서 모델링을 선택할때 여러가지 모델을 모두 사용해보고 스코어가 가장 높을 것을 선택해서 제출하는 것으로 이해했습니다!그렇다면 그 여러가지 모델을 선정해야하는데 어떤 모델을 선정해야할까요?분류/회귀에 따라 다른 것으로 알고 있는데 분류/회귀 각각 3~4개정도 추천해주실 수 있으신가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 회귀/분류 구분
'꿀팁 - 작업형2 한가지 방법으로 풀기' 영상으로 기출유형을 공부 중에 있습니다. 랜덤포레스트에서 아래 두가지를 구분하는게 헷갈립니다.회귀 : RandomForestRegressor분류 : RandomForestClassifier기출5회 유형에서 '예측(자동차 가격)'이라는 단어를 보고 회귀를 사용했는데,기출6회 유형에서는 '예측(난방 부하 단계)'이라는 단어가 있지만 분류를 사용하시더라구요. 두 가지를 구분하는 확실한 기준이 궁금합니다.
-
미해결딥러닝 CNN 완벽 가이드 - Fundamental 편
residual block과 identity block의 차이
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 안녕하세요. 강의 정말 잘 듣고있습니다!resnet을 공부하던 중 궁금증이 들어서 그런데 residual block과 identity block은 같은 말인건가요??
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-5 분류 강의에서 마지막 평가 항목
마지막 27분 경에 설명해 주신 평가 항목 코드에서 from sklearn.metrics import roc_auc_score y_test = pd.read_csv("y_test.csv") ans = (y_test['income'] != '<=50K').astype(int) print(len(ans), len(pred)) roc_auc_score(ans, pred[:,1])길이가 서로 맞지 않아 오류가 뜨는데 y_test 대신에 y_val를 쓰는 것이 맞는 걸까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ols 사용시 변수가 많을 경우
변수가 예를들어 30 ~40개 수준으로 많은 경우종속 ~ 변수1 + .......... + 변수 40 이렇게 해줘야 할까요...?너무 낭비가 심한것 같은데.. 다른 방법 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업2 스케일링 관련
안녕하세요.작업2에서 인코딩할때 혹시 모를 경우를 대비해df=concat[train,test]로 합치고 나서 인코딩을 한후 쪼개는 방식으로 진행하고 있는데스케일링의 경우에도 train에서 fit_transform , test에서 transform을 하지 않고df로 합치고 나서 fit_transform만 해도 괜찮을까요?train이랑 df랑 데이터 분포가 다르니까 스케일링 되는 정도도 다를것 같은데합치고 해도 상관없을지 궁금합니다. 감사합니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
교재 예제파일 관련
3유형 연습문제 customer_travel.csv 파일이 없어서 보니선생님 깃허브에서 파일 위치가 수정된 것은 확인했습니다.예제코드에서df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/bigdata_analyst_cert/main/part4/ch8/customer_travel.csv")이 부분도 수정이 되면 더 좋을 것 같습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅데이터 체험환경에서 ctrl c+v 가 안됩니다.
실행결과에서 복사붙여넣기 하려면 단축키가 아니라 직접 해야 되나요? 아니면 어떤 설정을 해야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 제출하는 부분 문제에 주어진 price로 열 설정해야되는거 아닌가요?
에어비앤비 예측하는 문제id,price 34323697,238 29927138,183 120362,234분명 이렇게 제출하라고 했는데 코드에선 id와 output으로 되어 있어서 궁금합니다.. output 대신 price 써야 맞는게 아닌가요?pd.DataFrame({'id':test_id, 'output':pred}).to_csv("00000.csv", index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
가설검정 (t-test)
커리큘럼으로 게시해주신 t-test 영상에서 다룬 귀무가설, 대립가설은 모두 평균에 대한 가설이었습니다.kaggle에서 추가 문제를 풀어보는 중인데, 다음과 같은 문제가 있더군요.# 베스킨라빈스는 쿼트(Quart) 아이스크림의 중앙값이 620g이라고 주장하고 있습니다. # 저는 실제로 이 아이스크림의 중앙값이 620g보다 무겁다고 주장합니다. # 다음은 20개의 쿼트 아이스크림 샘플의 무게 측정 결과입니다. # 이 측정 결과를 바탕으로 나의 주장이 사실인지 비모수 검정(Wilcoxon Signed-Rank Test)을 통해 검정해보십시오. # p-value값을 반올림하여 소수점 둘째 자리까지 계산 # 귀무가설: "베스킨라빈스 쿼트 아이스크림의 중앙값은 620g이다." # 대립가설: "베스킨라빈스 쿼트 아이스크림의 중앙값은 620g보다 무겁다."평균에 대한 검증만 해봤더니 중앙값에 대해선 어떤 코드가 필요할지 몰라서 풀이를 봤는데,평균에 대한 가설검증 코드와 동일하더라고요.import pandas as pd from scipy.stats import wilcoxon # 설정값 med = 620 # Wilcoxon Signed-Rank Test 수행 result = wilcoxon(df["weight"] - med, alternative='greater') p_value = round(result.pvalue, 2) print(p_value)검증하려는 통계값이 다른데, 왜 가설검증 절차는 동일한지 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 타이타닉
# X_train.head()# y_train.head()# X_train.info()# y_train.info()# X_train.isnull().sum()# y_train.isnull().sum()# y_train['Survived'].value_counts()# print(X_train.shape, y_train.shape)# X_train = pd.get_dummies(X_train)# y_train = pd.get_dummies(y_train)# print(X_train.shape, y_train.shape)# target = y_train.pop('Survived')# from sklearn.model_selection import train_test_split# X_tr, X_val, y_tr, y_val = train_test_split(X_train, target, test_size=0.2, random_state=0)# print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(random_state=0)rf.fit(X_tr, y_tr)pred = rf.predict(X_val) 다음과 같이 풀이했는데 오류가 뜨는 이유가 뭘까요?그리고 target = y_train.pop['Survived']를 데이터 전처리 때 하는 게 좋을까요 데이터 분리를 할 때 하는 게 좋을까요? 한 셀에서 풀이를 하면 target = ~ 이 셀이 두 번 반복되는데 그럼 다시 오류가 떠서 미리 실행시키고 다음 단계 전에는 숨기기 처리하는게 맞겟죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 제출 형식
선생님 항상 친절한 답변 감사합니다. 작업형2 연습 중에 있는데 EDA도 하고 여러 과정을 거치면서 print문으로 여러줄을 출력해가면서 중간 과정을 확인하며 풀이를 하고 있습니다. 실제 시험에서는 작업형2 코드를 제출할 때 중간 과정에서 확인하기 위한 print문을 주석처리하고 제출을 해야할까요??아니면, "result.csv" 파일만 잘 생성이 되어 제출한다면 문제가 없는 걸까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
kruskal 관련
비 모수 검정 시 kruskal 분석 사용해서 p value 값은 어떠한 것을 확인하는 건가요?stats.kruskal(df['A'], df['B'], df['C'], df['D']) 에서 나오는 p value는 어떤걸 의미하는건지 궁금합니다.그리고 해당 p value의 가설 귀무 가정을 알수있을까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출2회와 3회 작업형 2의 차이
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형 2 기출2회 에서는 범주형변수의 컬럼이름만 찾았는데 기출3회에서는 범주형변수와 수치형변수를 분리하는 이유가 무엇인가요?ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수치형 데이터, 범주형 데이터 분리 기준
안녕하세요,수치형 데이터, 범주형 데이터 분리해서 스케일링 및 인코딩을 하셨는데요!수치형 데이터, 범주형 데이터 분리를 할때와 안할때의 차이가 무엇이고, 기준이 무엇일까요? 다시 말씀드리면, 수치형 데이터, 범주형 데이터 분리를 할때와 안할때의 장단점이 궁금하고,어떤 상황에서 분리를 해야하고, 어떤 상황에서 분리를 하지 않아도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 질문입니다.
r2 score에 경의 테스트가거의 0.3이하로만 계속 출력되는것으로 강의에서 확인되는데제가 알기로 0.3이하면 굉장히 낮은수준의 모델로 알고있습니다.시험장에서 0.3이하가 나오더라도 제출하는데 문제없을까요?