묻고 답해요
148만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델 randomstate 값
전 강의 분류에서 랜덤포레스트 모델 불러올 때는model = RandomForestClassifier(random_state=2022) randomstate 값 주었는데 이번 강의에서는model = LinearRegression() 값을 주지 않았네요. 전 강의에서는 baseline, 원핫 , 라벨 인코딩 등 여러번 비교하면서 평가해야해서 고정시켜준건가요? 이번 강의에서는 라벨인코딩만 사용하기로 해서 굳이 고정시킬 필요 없나요? 또한 이번 강의에서는 단순 object만 제거하는 baseline, 원핫 인코딩 라벨 인코딩 평가 점수를 비교하지 않는데 이유가 있을까요? 또한 랜덤포레스트, 선형회귀 등 여러 모델이 있는데 어떠한 경우에 각 모델을 사용해야 하는지 기준이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
자꾸 오류가 납니다.
# 검증데이터 분리 from sklearn.model_selection import train_test_split X_tr, y_tr, X_val, y_val = train_test_split(train.drop('TravelInsurance', axis=1), train['TravelInsurance'], test_size=0.2, random_state=2002) X_tr.shape, y_tr.shape, X_val.shape, y_val.shape 이렇게 한 이후에 # 랜덤포레스트from sklearn.ensemble import RandomForestClassifierfrom sklearn.metrics import accuracy_scoremodel = RandomForestClassifier()model.fit(X_tr, y_tr) (밑에 코드는 생략했습니다) 근데 오류가 model.fit(X_tr, y_tr)에서 난다고 뜹니다.오류 : Found input variables with inconsistent numbers of samples: [1192, 298] 이렇게 뜹니다,. 뭐가 문제인지 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리 중 삭제
타겟 데이터를 보고 타겟 데이터에 영향을 주지 않을 만한 요소들 (이 강의에서는 name, host_name, host_id, last_review )을 직접 EDA 할 때 보고 정해주면 되는 것인가요? 만약 필요한 데이터를 삭제한다든가 불 필요한 데이터를 남겨뒀을 때 평가 지표가 낮게 나온다면 다시 불필요한 데이터를 선별하는 전처리 작업을 반복하면서 진행하는 것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀, 분류
해당 문제가 회귀 문제인지 분류 문제인지는 평가 방법을 통해 판단하는 것인가요? 아니면 타겟 데이터 형태를 통해서 판단하는 것인가요?타겟 데이터가 0,1 분류 데이터면 분류를하고타겟 데이터가 그렇지 않을 때 회귀 적용하는 것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 평가
제 기준에서는 baseline (단순 object 제거)으로 했을 때점수가 가장 높았습니다. 질문 강사님은 레이블 인코딩일 때 auc 점수가 가장 높던데 학습 데이터가 동일하더라도 평가 점수는 다를때가 많나요? 문제에서 auc 등 어떤 지표를 기준으로 평가하는지 명시해주나요? 그러면 그 평가 지표가 가장 높은 피처 엔지니어링 방법으로 진행하면 될까요?수치형 데이터 스케일링은 진행 안 하신 이유가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
model.selection 하는경우와 안하는경우
1) 안녕하세요 sklearn.model_selection ~ 으로 트레인/테스트 분리하는건 어떤상황에서 하고 어떤상황에서 안하는지 궁금합니다. 직전 4회 기출(작업형2)에서는 basic/intermediate 단계에서는 안했던것 같거든요, 마찬가지로 5회기출도 분리하지 않고 랜덤포레스트로 예측진행해도 될까요? 해도되고 안해도되는 상황을 잘모르겠어서 질문드려요 2) 그리고 어떤상황에서는 random_state=2022 이고 어떤때는 random_state=0 이던데 이것도 사용 기준이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 유형 (작업형2) 관련 질문
안녕하세요 선생님!xgboost를 사용해 예측을 진행하려고 하니, ValueError: Invalid classes inferred from unique values of `y`. Expected: [0 1 2 3], got [1 2 3 4]위와 같은 에러코드가 나와, chat gpt에 물어보니, XGBoost가 클래스 레이블을 0부터 시작하는 정수 값으로 기대하기 때문입니다. 즉, XGBoost는 클래스 레이블이 [0, 1, 2, 3]과 같은 형식을 갖추기를 기대하는데, 현재 데이터는 [1, 2, 3, 4]로 되어 있습니다.이 문제를 해결하려면 클래스 레이블을 0부터 시작하도록 변경해야 합니다. 라고 답변을 주었는데, 코드를 수정해준 것을 보니, y 변수에 train['Segmentation']을 할당하여 LabelEncoding 을 진행하여 0부터 시작하는 데이터로 변환시켜주는 코드를 줬는데, 이 코드를 사용하여 예측하고 제출 csv 파일까지 만들어 확인해보니, Segmentation 예측을 1,2,3,4 로 한 것이 아닌 0,1,2,3 으로 예측하였는데...xgboost를 사용하기 위해서는 어느 부분을 수정하여야 할까요? 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출4회 유형2 문의드립니다.
기출4회 유형2 문의드립니다.Macro f1-core는 #*****평가(=교차검증)from sklearn.model_selection import cross_val_scorescore = cross_val_score(model, train, train['Segmentation'], scoring='f1_macro', cv=5)print(score)print(score.mean())이렇게 구하면 되는건가요? 그리고 아래와 같이 풀이해봤는데강사님께서 풀이하신 segmentation과 다른데 괜찮나요? 풀이과정에 문제는 없는지 확인 부탁드립니다. # 라이브러리 불러오기import pandas as pd# 데이터 불러오기train = pd.read_csv("train.csv")test = pd.read_csv("test.csv")#*****데이터확인train.shape, test.shapetrain.head(2)test.head(2)#문자형 6개# train.info()#결측치 없음train.isnull().sum()test.isnull().sum()#*****전처리#결측값 없음#train합치기 없음#인코딩from sklearn.preprocessing import LabelEncodercols= train.select_dtypes(include='object')colsfor col in cols : le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])#id삭제train = train.drop('ID',axis=1)test_ = test.pop('ID')#*****분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split( train.drop('Segmentation',axis=1), train['Segmentation'], test_size=0.2, random_state=2022)#*****모델 max_depth=5~7 / n_estimators= 100~1000from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier(random_state=0, max_depth=7, n_estimators=500)model.fit(X_tr, y_tr)pred = model.predict(X_val)#*****평가(=교차검증)from sklearn.model_selection import cross_val_scorescore = cross_val_score(model, train, train['Segmentation'], scoring='f1_macro', cv=5)print(score)print(score.mean())#*****예측pred = model.predict(test)predsubmit = pd.DataFrame({ 'ID': test_ID, 'Segmentation': pred})submit#*****저장submit.to_csv('submission_csv', index=False)pd.read_csv('submission_csv')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-4 MinMaxScaling
안녕하세요. 범주형/수치형을 구분하지 않고 시험에서 진행하는 것이 좋다고 이전 유사질문에 답변주신 내용은 확인하였으나, 단순 궁금함으로 질문드립니다. 3-4 예시에서 이미 수치형과 범주형 데이터를 구분하여n_train에는 수치형 데이터 타입의 컬럼만 남아있는 것으로 이해했는데 아래와 같이 별도로 cols라는 수치형 컬럼만 모은 리스트를 따로 만들어 코드 작성을 진행하는 이유가 있을까요? n_train[cols] = scaler.fit_transform(n_train[cols]) 여기서 [cols]를 지웠더니 numpy 관련 오류가 나는 것으로 확인하였는데 자세한 내용이 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회기출 유형(작업형1)의 첫번째 문제의 해설 이해 안됩니다.
7회 기출 유형의 작업형 1번문제에서 가장 많이 수강한 과목을 찾기 위해서 id_assessment가 높은 과목으로 선정합니다.그런데, id_assessment 숫자가 제일 높은 것이 133인데 설명에서는 value_counts()를 사용해서 33이 제일 높고 이의 id가 12라고 설명하고 있습니다. 원본 data를 봐도 133인데 제가 문제를 잘못 이해하고 있는건지…도움 부탁드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 정리 강의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요. 좋은 강의 항상 감사드립니다.작업형2 강의를 다시 듣고 있는데, 풀이가 다르고 방법이 여러가지이다보니 정리가 어려운 상황입니다. 강사님께서 비슷한 질문글에 작업형2 정리 강의를 조만간 준비하시겠다고 답변하신 것을 보게 되었는데, 혹시 계획이 있으신가요? 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출유형(작업형3) 질문이요!
17:20 쯤에요 from statsmodels.formula.api imprt ols 에서 ols 대신에 logit을 써도 가능할까요?? 문제마다 ols 나 logit 이나 등등 어떤거를 써야하는지 이해가 어려워서 logit 하나만 사용하려고 생각중이어서요 ㅠㅠ..
-
미해결실리콘밸리 엔지니어와 함께하는 Apache Airflow
from airflow.sensors.sql import SqlSensor에 대해 질문 있습니다.
선생님이 4:21초에 from airflow.sensors.sql import SqlSensor는 provider에 있는게 아니라 core에 있는 sensor라고 알려주셨는데 airflow 버전 2.9.1에서는 SqlSensor가 apache-airflow-providers-common-sql 패키지에 포함되어 있다고 하는데 그러면 버전 2.9.1에서는 airflow core에 있는 sensor를 사용하지 못하는 건가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출2회 작업형2유형 강의에서
17:17 화면에 보시면 random_state=2021 도 있고random_state=2022 도 있는데임의의 아무 정수를 설정하는건 알겠는데두개의 수가 같아야 하는것 아닌가요?한번 2021로 정했으면 2021로 쭉 해야하는것 아닌가요~?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이원분산분석
이원분산분석에 대한 차이점이 명확하게 정리가 되지 않습니다.독립변수가 2개이면 포뮬러를 로 연결해주면 되는걸로 알고있는데, 무조건 *로 독립변수들을 연결해주어도 되는걸까요? 언제 종속~독립1+독립2+독립3로 해야할지 종속~독립1*독립2 로 해야할지 구분이 안가는데 이건 문제를 통해 확인해야하는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
일원분산분석 관련 질문입니다.
안녕하세요 선생님. 먼저 훌륭한 강의와 자료를 제공해주셔서 정말 감사합니다. 덕분에 시험준비가 한층 수월하게 이루어지고 있는 것 같습니다.다름이 아니고 작업형3번 일원분산분석 부분에서 질문이 생겨 문의드립니다.정규성 가정과 등분산 가정을 모두 만족하면 일원분산분석을 진행하고, 만약 정규성 가정을 만족하지 못하면 kruskal wallis 검정을 진행하는 것까지는 이해하였습니다.그런데 만약 문제에서 정규성 가정은 만족하나 levene검정 결과 등분산 가정을 만족하지 못하는 경우에는 어떻게 검정을 진행해야 하는지 궁금합니다. 가설검정의 경우에는 equal_var = False 매개변수를 설정하도록 방법이 안내되어 있으나 일원분산분석에는 관련 설명이 없기에 문의드립니다.감사합니다.
-
미해결빅데이터분석기사 실기대비 (R 활용)
작업형 1유형의 3번문제(ratio)
안녕하세요 3회 작업형 1유형 3번째 Ratio가 가장 큰 컬럼을 구하는 문제에서, 같은 파일과 같은 코드를 작성하였는데 저는 답이 Age가 나오지 않고, Cabin이 더 큰 것으로 나오는데요.. 어디가 문제가 있는건지 도통 알기가 어려워 도움을 요청합니다.ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
독립성 검정 코드
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요강의에서는from scipy.stats import chi2_contingencyprint(chi2_contingency(교차테이블명))이렇게 하셨는데from scipy import statsprint(stats.chi2_contingency(교차테이블명))이렇게 적어도 상관없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[색션 16, 작업형2] 어디가 틀렸는지 모르겠습니다.
계속 실행되다가.마지막에 model.fit(X_tr, y_tr)을 코딩하면 자꾸 에러가 납니다 ㅠ 어디가 문제인걸까요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
반복측정 분산분석
어떤 수험교재 문제에서는 반복측정 분산분석을 구하라는 문제도 나오는데, 반복측정 분석분석 대해서도 예제로 풀이 설명해 주실 수 있는지요?