묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 7회 1유형 3번문제에서 이상치를 구하는 코드를 사용할때 이것도 맞는건가요??
q1 = df['CO2'].quantile(.25)q3 = df['CO2'].quantile(.75)IQR = q3 - q1-> sum(df['CO2'] < q1 - 1.5 IQR) + sum(df['CO2'] > q3 + 1.5 IQR)이렇게 코드를 써도 나중에 IQR 이상치를 구하는 문제에서 별 문제가 없을까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 모의고사 2번
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 a1 = a[['s1','s2','s3','s4','s5']]sum = a1.sum(axis=1)>0.1print(sum.sum()) 문제에서 요구한 칼럼을 뽑아서 새로운 데이터 프레임을 만들어서 코딩했습니다. 이렇게 하니 102개가 나왔는데, 어떤 부분에서 문제가 발생하는지 잘 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩의 노트북 작업시 질문입니다.
코랩의 노트북 작업시 질문입니다. 노트북에서 한번 따라쳐보고 밑에서 새로 혼자 작성해보는 식으로 해보는데요, 언제부턴가 한번 코드를 치고난 후에는, 코드가 자꾸 자동완성이 되서 치기도 전에 코드가 완성되더라구요.혹시 노트북내에서 자동완성 기능을 끌 수 있는 방법이 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 - 문제2 질문
이렇게 제 나름대로 풀이를 적어서 실행시켜 보았는데, 계속 에러가 떠서 질문 드립니다!제가 작성한 코드 입니다.from google.colab import drive drive.mount('/content/drive') import pandas as pd import numpy as np df = pd.read_csv('/content/drive/MyDrive/bigdata(빅분기 놀이터)/빅분기 놀이터 Dataset/members.csv') cond1 = df.isnull().sum() / len(df) >= 0.3 df[cond1] = df[cond1].dropna() cond2 = (df.isnull().sum() / len(df) >= 0.2) | (df.isnull().sum() / len(df) < 0.3) df[cond2] = df[cond2].fillna(df[cond2].mode()[0]) print(len(df[df['f3'] == 'gold']))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 오류
계속 이렇게 오류가 뜨고 파일이 안불러와지는데 어떻게 해야하나요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
양측검정의 pvalue
양측검정의 pvalue는 해석할때 그대로 해석하면 되는걸까요?예를들어 검정결과가MannwhitneyuResult(statistic=27036.0, pvalue=0.9807458376150018) 이런식으로 나왔다면 귀무가설을 지지한다는 결과는 같지만, 양측검정이어서 pvalue가 0.98에 대한 1/2의 값인 0.49로 인해서 지지한다고 봐야할지, 아니면 그대로 0.98이어서 지지한다고 해석해야할지 헷갈립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
statsmodel.formula.api.ols와 sklearn.linear_model.LinearRegression의 차이
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요선형회귀분석에서 statsmodel.formula.api.ols와 sklearn.linear_model.LinearRegression의 차이가 궁금합니다. 어떨 때 ols를 쓰고, 어떨때 LinearRegression을 쓰는지 구분이 잘 안돼요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 채점
작업형 2 풀이를 할 때 수치형 데이터들 따로 건들지 않고 id 부분만 삭제하고 object형 데이터들을 단순 삭제 하고 모델 학습 후 검증 데이터로 평가했을때 어느정도 %가 나와야지 채점을 할 때 만점 받을 수 있을까요?단순하게 데이터를 전처리해도 검증 데이터로 평가했을 때 90% 정도가 나온다면 하이퍼파라미터 변경이나 수치형 데이터 스케일링, object형 원핫, 레이블 인코딩을 굳이 할 필요는 없는 것일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라이브러리 및 데이터 불러오기 그리고 EDA, 16:45 부분
저는 아무리 해도 계속 값들이 (0,0)으로 나오는데 어떤 부분이 잘못된 것 일까요?ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요.좋은 강의 항상 감사드립니다.작업형2번 검증데이터 나누기 부분 질문드립니다.어떤 문제에서는 cols에 범주형 데이터를 제외하고 -> 랜덤포레스트(섹션10 작업형2신유형), 어떤 문제는 labelencoder -> 검증데이터 나누기 -> 모델 학습 및 평가로 이어지는데요. 범주형 데이터가 적을 경우 cols에 범주형 컬럼은 빼고 적은 후 (labelencoder 안하고) 바로 모델 학습을 해도 괜찮은가요?(섹션10 작업형2)검증데이터 나누기 작업이 들어간 문제들은 어떤 상황이라서 인가요? 꼭 필요한 작업인가요?감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문단맞춤 설정법이 있을까요?
강의에서 선생님 결과값은 보기 좋게 나오는데저는 이렇게 컬럼이 뒤로 갈수록 칸이 보기가 안좋아서 설정법이 따로 있는지 문의 드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출6 유형1 문의드립니다.
안녕하세요 문의드립니다.그룹바이 정의값을 df['월평균']으로 넣으면 오류가 나고df['월평균'] = df.groupby('연도')['총범죄'].sum()/12 df['월평균']result로 넣으면 오류가 안나는 이유가 뭘까요?result = df.groupby("연도")['총범죄'].sum()/12 result
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델 randomstate 값
전 강의 분류에서 랜덤포레스트 모델 불러올 때는model = RandomForestClassifier(random_state=2022) randomstate 값 주었는데 이번 강의에서는model = LinearRegression() 값을 주지 않았네요. 전 강의에서는 baseline, 원핫 , 라벨 인코딩 등 여러번 비교하면서 평가해야해서 고정시켜준건가요? 이번 강의에서는 라벨인코딩만 사용하기로 해서 굳이 고정시킬 필요 없나요? 또한 이번 강의에서는 단순 object만 제거하는 baseline, 원핫 인코딩 라벨 인코딩 평가 점수를 비교하지 않는데 이유가 있을까요? 또한 랜덤포레스트, 선형회귀 등 여러 모델이 있는데 어떠한 경우에 각 모델을 사용해야 하는지 기준이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
자꾸 오류가 납니다.
# 검증데이터 분리 from sklearn.model_selection import train_test_split X_tr, y_tr, X_val, y_val = train_test_split(train.drop('TravelInsurance', axis=1), train['TravelInsurance'], test_size=0.2, random_state=2002) X_tr.shape, y_tr.shape, X_val.shape, y_val.shape 이렇게 한 이후에 # 랜덤포레스트from sklearn.ensemble import RandomForestClassifierfrom sklearn.metrics import accuracy_scoremodel = RandomForestClassifier()model.fit(X_tr, y_tr) (밑에 코드는 생략했습니다) 근데 오류가 model.fit(X_tr, y_tr)에서 난다고 뜹니다.오류 : Found input variables with inconsistent numbers of samples: [1192, 298] 이렇게 뜹니다,. 뭐가 문제인지 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리 중 삭제
타겟 데이터를 보고 타겟 데이터에 영향을 주지 않을 만한 요소들 (이 강의에서는 name, host_name, host_id, last_review )을 직접 EDA 할 때 보고 정해주면 되는 것인가요? 만약 필요한 데이터를 삭제한다든가 불 필요한 데이터를 남겨뒀을 때 평가 지표가 낮게 나온다면 다시 불필요한 데이터를 선별하는 전처리 작업을 반복하면서 진행하는 것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀, 분류
해당 문제가 회귀 문제인지 분류 문제인지는 평가 방법을 통해 판단하는 것인가요? 아니면 타겟 데이터 형태를 통해서 판단하는 것인가요?타겟 데이터가 0,1 분류 데이터면 분류를하고타겟 데이터가 그렇지 않을 때 회귀 적용하는 것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 평가
제 기준에서는 baseline (단순 object 제거)으로 했을 때점수가 가장 높았습니다. 질문 강사님은 레이블 인코딩일 때 auc 점수가 가장 높던데 학습 데이터가 동일하더라도 평가 점수는 다를때가 많나요? 문제에서 auc 등 어떤 지표를 기준으로 평가하는지 명시해주나요? 그러면 그 평가 지표가 가장 높은 피처 엔지니어링 방법으로 진행하면 될까요?수치형 데이터 스케일링은 진행 안 하신 이유가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
model.selection 하는경우와 안하는경우
1) 안녕하세요 sklearn.model_selection ~ 으로 트레인/테스트 분리하는건 어떤상황에서 하고 어떤상황에서 안하는지 궁금합니다. 직전 4회 기출(작업형2)에서는 basic/intermediate 단계에서는 안했던것 같거든요, 마찬가지로 5회기출도 분리하지 않고 랜덤포레스트로 예측진행해도 될까요? 해도되고 안해도되는 상황을 잘모르겠어서 질문드려요 2) 그리고 어떤상황에서는 random_state=2022 이고 어떤때는 random_state=0 이던데 이것도 사용 기준이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 유형 (작업형2) 관련 질문
안녕하세요 선생님!xgboost를 사용해 예측을 진행하려고 하니, ValueError: Invalid classes inferred from unique values of `y`. Expected: [0 1 2 3], got [1 2 3 4]위와 같은 에러코드가 나와, chat gpt에 물어보니, XGBoost가 클래스 레이블을 0부터 시작하는 정수 값으로 기대하기 때문입니다. 즉, XGBoost는 클래스 레이블이 [0, 1, 2, 3]과 같은 형식을 갖추기를 기대하는데, 현재 데이터는 [1, 2, 3, 4]로 되어 있습니다.이 문제를 해결하려면 클래스 레이블을 0부터 시작하도록 변경해야 합니다. 라고 답변을 주었는데, 코드를 수정해준 것을 보니, y 변수에 train['Segmentation']을 할당하여 LabelEncoding 을 진행하여 0부터 시작하는 데이터로 변환시켜주는 코드를 줬는데, 이 코드를 사용하여 예측하고 제출 csv 파일까지 만들어 확인해보니, Segmentation 예측을 1,2,3,4 로 한 것이 아닌 0,1,2,3 으로 예측하였는데...xgboost를 사용하기 위해서는 어느 부분을 수정하여야 할까요? 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출4회 유형2 문의드립니다.
기출4회 유형2 문의드립니다.Macro f1-core는 #*****평가(=교차검증)from sklearn.model_selection import cross_val_scorescore = cross_val_score(model, train, train['Segmentation'], scoring='f1_macro', cv=5)print(score)print(score.mean())이렇게 구하면 되는건가요? 그리고 아래와 같이 풀이해봤는데강사님께서 풀이하신 segmentation과 다른데 괜찮나요? 풀이과정에 문제는 없는지 확인 부탁드립니다. # 라이브러리 불러오기import pandas as pd# 데이터 불러오기train = pd.read_csv("train.csv")test = pd.read_csv("test.csv")#*****데이터확인train.shape, test.shapetrain.head(2)test.head(2)#문자형 6개# train.info()#결측치 없음train.isnull().sum()test.isnull().sum()#*****전처리#결측값 없음#train합치기 없음#인코딩from sklearn.preprocessing import LabelEncodercols= train.select_dtypes(include='object')colsfor col in cols : le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])#id삭제train = train.drop('ID',axis=1)test_ = test.pop('ID')#*****분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split( train.drop('Segmentation',axis=1), train['Segmentation'], test_size=0.2, random_state=2022)#*****모델 max_depth=5~7 / n_estimators= 100~1000from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier(random_state=0, max_depth=7, n_estimators=500)model.fit(X_tr, y_tr)pred = model.predict(X_val)#*****평가(=교차검증)from sklearn.model_selection import cross_val_scorescore = cross_val_score(model, train, train['Segmentation'], scoring='f1_macro', cv=5)print(score)print(score.mean())#*****예측pred = model.predict(test)predsubmit = pd.DataFrame({ 'ID': test_ID, 'Segmentation': pred})submit#*****저장submit.to_csv('submission_csv', index=False)pd.read_csv('submission_csv')