묻고 답해요
144만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[py] T1-13. 상관관계 구하기 Expected Questions
안녕하세요 강사님캐글의 공유해주신 작업 1유형 문제 중 아래 링크의 문제 관련 질문드립니다. # 상관관계 구하기 # 주어진 데이터에서 상관관계를 구하고, quality와의 상관관계가 가장 큰 값과, 가장 작은 값을 구한 다음 더하시오! # 단, quality와 quality 상관관계 제외, 소수점 둘째 자리까지 출력처음 지문을 보고 문제를 혼자 풀이 하였을 땐, 상관관계가 가장 큰 값과 작은 값에 대해 절대값으로 확인하라는 내용이 없어서 절대값을 고려하지 않고 문제를 풀이했습니다. 이후 풀이 코드를 확인했을 땐 절대값으로 확인하고 풀이한 내용이 들어있어 질문드립니다.제가 비전공자라 기본 지식이 부족해서 조금 헷갈리는데, 위와 같은 맥락의 문제에서는 지문에 따로 '절댓 값' 이라는 언급이 없어도 기본적으로 절대값으로 구해야한다는 전제를 깔고 풀이해야하나요? (절댓값 유무의 따라 결과값 달라짐)문제 지문에서는 '소수점 둘째 자리까지 출력' 이라고 적혀있었는데 풀이 코드에서는 round() 함수를 사용해서 정답을 출력하고 있습니다. 해당 문제에서의 정답에는 큰 영향은 없었지만 풀이중 궁금해서 질문드립니다.별도의 버림, 올림, 반올림 등의 조건이 없는 지문에 대해서는 기본적으로 round() 함수를 사용하면 될까요? https://www.kaggle.com/code/agileteam/py-t1-13-expected-questions
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
샤피로윌크, 윌콕슨 질문
샤피로윌크 검정과, 윌콕슨 검정시에 어떨때는 df[~] 콤마 df[~]이 들어가고 어떨땐 df[~] - df[~]가 들어가는지 헷갈립니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형(작업형2) 오류가 나서요 ㅠ
2회 기출 작업형2 하다가 오류가 나서 문의드립니다.랜덤포레스트 부분입니다. # 랜덤포레스트 from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(random_state=0)model.fit(X_tr,y_tr) pred = model.predict_proba(X_val)이렇게 오류가 나는데 ㅠㅠ왜그런걸까요.....
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터를 합쳤다가 인코딩한 후 분리
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요df.iloc[:,line] 이 부분에서 line이 갑자기 정의도 안하고 왜 튀어나오는지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
독립표본 검정 변수 순서
독립표본 T 검정시에ttest_ind(A,B)를 통해 검정하는데A,B순서에 따라 t_score값의 부호가 바뀌게됩니다시험에서 t_score의 값을 물어보는 경우 변수 순서를 어떻게 정해야 정답이 될 수 있을까요?아니면 절대값만 볼까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형1)
작업형 1의 세번째 문제를 혼자 풀고 풀이를 보며 비교해보니 답이 조금 달라 질문드립니다.import pandas as pd df = pd.read_csv("members.csv") a= df.isnull().sum() # print(a) print(a.sort_values(ascending=False).index[0]) 저는 위처럼 풀어 f1이라는 답을 냈지만 풀이의 답은 'f1'입니다. ( 작은 따옴표의 차이)이 같은 경우에는 제 풀이가 오답이 되는 것인지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중 회귀 분석에서 유형[T.C]의 의미 (영상 37초)
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요제목 그대로 다중선형 회귀 분석 시에 from statsmodels.formula.api import olsmodel=ols('종속~독립1+유형(범주형)',data=df).fit()하고 summary() 했을 때 유형[T.C] ,유형[T.B] 이것의 의미는 뭘까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 채우기 질문
안녕하세요 수치형 변수 결측치를 채울 때X_test 데이터에는 X_test의 age 평균값이 들어가야 한다고 생각했는데X_test['age'] 에 X_train['age']의 평균값을 넣는데 이유가 있을까요?주당 근무시간에 대해서도 test 데이터에 train 데이터의 중앙값을 넣어주던데 같은 질문입니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형2) 채점부분 질문
채점부분 코드 돌리려는데, 이렇게 오류가 뜨네요.제 풀이는import pandas as pdfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorefrom sklearn.metrics import precision_scorefrom sklearn.metrics import recall_scorefrom sklearn.metrics import f1_scorefrom sklearn.metrics import confusion_matrixfrom sklearn.metrics import roc_auc_scoredf1 = pd.read_csv('/content/drive/MyDrive/bigdata(빅분기 놀이터)/기출문제/3회/train.csv')# print(df1.head())# print(df1.info())# print(df1.describe())df2 = pd.read_csv('/content/drive/MyDrive/bigdata(빅분기 놀이터)/기출문제/3회/test.csv')# print(df2.head())# print(df2.info())# print(df2.describe())df1['TravelInsurance'] = df1['TravelInsurance'].astype('category')x = df1.drop('TravelInsurance', axis=1)y = df1['TravelInsurance']x_encoded = pd.get_dummies(x)x_train, x_valid, y_train, y_valid = train_test_split(x_encoded.drop('Unnamed: 0', axis=1), y, test_size=0.25)md = RandomForestClassifier(n_estimators=300)md.fit(x_train, y_train)pred = md.predict(x_valid)cm = confusion_matrix(y_valid, pred, labels=[1,0])print(cm)print(accuracy_score(y_valid, pred))print(precision_score(y_valid, pred))print(recall_score(y_valid, pred))print(f1_score(y_valid, pred))print(roc_auc_score(y_valid, pred))x_test = df2x_test_encoded = pd.get_dummies(x_test)md = RandomForestClassifier(n_estimators=300)md.fit(x_encoded.drop('Unnamed: 0', axis=1), y)pred = md.predict_proba(x_test_encoded.drop('Unnamed: 0', axis=1))# print(pred)result = pd.DataFrame({'y_pred' : pred[:, 1]}).reset_index()print(result)result.to_csv('기출유형 3회 (작업형2) 답안.csv', index = False)입니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 3형 질문
# 1) 학습 데이터와 테스트 데이터 분리 X_train = train[['weight']] y_train = train['gender'] X_test = test[['weight']] y_test = test['gender']x_train, x_test는 대괄호가 2개고, y_train, y_test는 대괄호가 1개인 이유가 무엇인가여....
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6:58 mannwhitneyu 검정 시 질문
p-value값이 0.4이므로 귀무가설을 채택한다는 것은 결국 대립가설을 기각한다는 뜻이므로 B점수가 더 높다는 것을 기각한다는 뜻인가요?혹시나 해서 A 와 B각각 평균을 내보았더니 A는 60점대고 B는 80점대였습니다.제가 잘못 이해했는지 모르겠는데, B의 평균이 더 높기 때문에 원래대로라면 p값이 0.05보다 작게 나왔어야 하는 것 같은데 왜 그런가요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수치형 데이터 스케일링
수치형 데이터 스케일링 할때,범주형 데이터 라벨 인코딩 하듯이, 아래와 같은 방법으로 해도 되는지요? 에러가 나서, 방법이 자체가 잘 못 된건지.. 아니면 방법은 틀리지 않은데, 부분적인 코드 작성에 실수가 있는건지 .... 여쭤보고 싶습니다. ^^;;from sklearn.preprocessing import MinMaxScaler n_cols = ['Age', 'AnnualIncome', 'FamilyMembers', 'ChronicDiseases'] for n_col in n_cols : scaler = MinMaxScaler() X_train[n_col] = scaler.fit_transform(X_train[n_col]) test[n_col] = scaler.transform(test[n_col])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 관련 질문
강의를 완강하고 캐글로 공부하려고 하는데 수업때 풀었던문제랑 겹치는 문제가 무엇인지 궁금합니다. 또는 우선순위랑 필수문제가 있는지, 수업이랑 겹쳐서 볼 필요 없는 문제는 무엇인지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2, 예측값(타겟)
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요train = train.drop 할 때가 있고target = train.pop 할 때있는데 방법이 다른 이유가 무엇인지
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 2형 lightgbm질문
5회 2형 lightgbm으로 작성하면 아래와 같은 문구가 나타납니다. 혹시 어떤 부분이 잘못되었을까여??< 코드 >x_train = pd.get_dummies(x_train) x_test = pd.get_dummies(x_test)from sklearn.model_selection import train_test_split xx_train, xx_test, yy_train, yy_test = train_test_split(x_train, y_train, test_size = 0.2, random_state = 42)import lightgbm as lgb model_g = lgb.LGBMRegressor(n_estimators = 150, max_depth = 4, random_state = 42) model_g.fit(xx_train, yy_train) pred_t_g = model_g.predict(xx_test) < 에러 메세지 >[LightGBM] [Warning] Found whitespace in feature_names, replace with underlines[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000399 seconds.You can set force_row_wise=true to remove the overhead.And if memory is not enough, you can set force_col_wise=true.[LightGBM] [Info] Total Bins 395[LightGBM] [Info] Number of data points in the train set: 3007, number of used features: 23[LightGBM] [Info] Start training from score 12318.722980[LightGBM] [Warning] No further splits with positive gain, best gain: -inf[LightGBM] [Warning] No further splits with positive gain, best gain: -inf
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선형회귀, 분산분석 등 질문
종자가 문자형이라 C()를 하는 것인데, ols에서 자체적으로 원핫 인코딩을 진행한다고 들었던 것 같은데, 그럼 C를 안붙여도 되지 않을까 해서 진행해봤는데, 값이 똑같이 나옵니다. 그냥 C()붙이는걸 생각 안해도 괜찮을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T1 -12 하위, 상위 10개차이
안녕하세요! # 주어진 데이터에서 상위 10개 국가의 접종률 평균과 하위 10개 국가의 접종률 평균을 구하고, 그 차이를 구해보세요 # (단, 100%가 넘는 접종률 제거, 소수 첫째자리까지 출력)이 문제에서 df2 = df.groupby('country').max() 왜 이 코드가 나오는지 이해를 못하겠습니다 ㅜ국가별로 접종률의 최대값이 나오는건가요?? 상, 하위국가를 구해야하니 국가별로 groupby를 해야하는 것은 알겠는데 max를 하는 이유는 무엇일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 로지스틱 회귀
https://www.kaggle.com/code/agileteam/t3-2-example-py/캐글에 올려주신 문제를 보고 있는데 위랑 아래 각각 결과가 다른데 이유를 모르겠어서 문의남깁니다.로지스틱 회귀 문제의 계수문제는 logit으로 푸는게 맞는걸까요?import pandas as pd from sklearn.linear_model import LogisticRegression # 데이터 로드 df = pd.read_csv('/kaggle/input/bigdatacertificationkr/Titanic.csv') # 데이터 전처리 df['Gender'] = df['Gender'].map({'male': 0, 'female': 1}) # 로지스틱 회귀 모형 생성 및 학습 X = df[['Pclass', 'Gender', 'SibSp', 'Parch']] y = df['Survived'] model = LogisticRegression() model.fit(X, y) # parch 변수의 계수값 출력 print("Parch 변수의 계수값:", model.coef_[0][3])import pandas as pd from statsmodels.formula.api import logit df = pd.read_csv("/kaggle/input/bigdatacertificationkr/Titanic.csv") formula = "Survived ~ C(Pclass) + Gender + SibSp + Parch" model = logit(formula, data=df).fit() model.params['Parch']
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 문의
범주형 변수만 선택하여 아래와 같이 원핫인코딩했는데 타입이 모두 bool 바꼈습니다. 왜 int로 안바뀌는지궁금합니다. 또 bool 상태로 계속 진행해도 괜찮은가요? c_cols = ['Gender', 'Ever_Married', 'Graduated', 'Profession', 'Spending_Score', 'Var_1'] train = pd.get_dummies(train,c_cols) test = pd.get_dummies(test,c_cols)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
카이제곱검정 기대빈도
안녕하세요 6회 작업형 3에 질문이생겨서 문의드립니다. 카이제곱 적합성검정의 경우 모든 기대빈도가 5이상일때 사용한다고 알고있었는데요배포해주신 문제의 데이터는 보면 무증상 70% 그외 30%로 전체데이터수를 곱해 빈도로 변환해주면 [2.0, 1.0, 3.0, 14.0]입니다.문제가 [감기약의 예상 부작용 비율과 항암약의 부작용 관찰값이 통계적으로 유의미하게 차이가 있는지 확인하려 한다. 카이 제곱 검정을 사용하여 검정 통계량을 구하시오.] 이경우 기대값에서 빈도가 5이하인 아픔: 10% 조금 아픔 5% 속 쓰림 15% 의 범주를 합쳐주고 검정을 해야하는것 아닌가요?그냥 검정을해도 값이 나오긴하지만 이 값이 신뢰할만한 값이라고 할수있는건가요?