묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신버전)
선생님 train과 test 데이터에서 회원ID를 드랍하지 않고 모델에 가져가는 이유가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중선형회귀2(범주형 변수) 질문있습니다.
위의 다중선형회귀에서 유형 칼럼은 범주형 변수인데,C(유형) 으로 안해줘도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse/mse 사용법
sklearn으로 rmse 활용하는 방법을 알려주셨는데공식이 너무 길고 암기가 어려워서요 코드 전체를 외워야 한다는 말씀이시죠?그리고, 대안으로 말씀주신 mse는 사용법이 어떻게 될까요?from sklearn.metrics import mean_squared_error랜덤포레스트 모델생성/학습/예측 ~이후mse(y_val, pred)위와 같이 작성해서 점수를 산출하면 되는게 맞는지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 베이스라인 코드 질문
2유형 풀때마다 조금씩 헷갈려서 저만의 베이스라인을 잡고가려는데아래와 같이 틀을 잡아도 괜찮을까요?# 데이터 불러오기 import pandas as pd X_test = pd.read_csv('X_test') X_train = pd.read_csv('X_train') y_train = pd.read_csv('y_train') # EDA실시, 제출용 아이디 값 분리, 데이터 전처리(예: 라벨인코더) X_train = X_train.drop('ID', axis = 1) X_test_id = X_test.pop('ID') from sklearn.preprocessing import LabelEncoder cols = X_train.select_dtypes(include = 'object').columns for col in cols: le = LabelEncoder() X_train[col] = le.fit_transform(X_train[col]) X_test[col] = le.transform(X_test[col]) # 검증 데이터 분리 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(X_train, y_train['변수'], test_size = 0.2, random_state = 2022) # 분류일때는 stratify=y 설정추가 # 랜덤 포레스트 from sklearn.ensenble import RandomForestClassifier # 회귀문제시에는 Regressor from sklearn.metrics import 평가지표 # 시험에서 요구하는 평가지표 model = RandomForestClassifier() model.fit(X_tr,y_tr) pred = model.predict_proba(X_val) # model.predict일수도 있음 print(평가지표(y_val, pred[:,1])) # 0,1중 시험에서 요구하는 값 #예측 pred = model.predict_proba(X_test) # model.predict일수도 있음 print(pred) # 데이터 프레임 만들기, 제출 result = pd.DataFrame({'ID': X_test_id, '변수': pred[:,1]}) result.to_csv('수험번호.csv', index = False)또한 모델학습시에 predict_proba와 predict을 어떻게 구분하여 사용하는지 아직 헷갈리는데 설명해주시면 감사하겠습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문자열 풀이
왜 출력결과 index 2번에 False라고 나올까요?? True 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 최종 예측시 질문드립니다.
안녕하세요 강사님2유형 최종 예측 시 궁금한게 있어서 질문드립니다. 파라미터 튜닝하면서 RandomForestClassifier() 인자로 'random_state' 를 넘겨주고 있는데,튜닝이 끝난 후 실제 예측 시에도 'random_state' 값을 그대로 두고 하는게 나은가요?아니면 튜닝이 끝났으면 해당 인자는 지우고 예측하는게 나을까요?rt = RandomForestClassifier(random_state=2002, max_depth=7, n_estimators=200)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
lightbgm 관련 질문
안녕하세요 선생님!원핫인코딩 후 lightgbm을 적용했을때 아래와 같은 코드가 나오는데, 일단 제가 구하려는 rmse 값은 나오는데 아래와 같은 코드가 나오는 이유가 궁금합니다![LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000150 seconds. You can set force_row_wise=true to remove the overhead. And if memory is not enough, you can set force_col_wise=true. [LightGBM] [Info] Total Bins 386 [LightGBM] [Info] Number of data points in the train set: 3007, number of used features: 8 [LightGBM] [Info] Start training from score 12299.193216 [LightGBM] [Warning] No further splits with positive gain, best gain: -inf
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩시 에러
원핫인코딩을 하면 항상 이런 에러를 만나게 되는데 어디가 잘못된건지 잘 모르겠습니다.(cols 에는 ['Gender', 'Ever_Married', 'Graduated', 'Profession', 'Spending_Score', 'Var_1'] 이렇게 들어가있다고 나옵니다)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
1번문제
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요df[:int(len(df)*0.7)]저는 위와 같이 적었는데 이렇게 적어줘도 상관없을까요?강의에서는 iloc를 사용해서요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회기출 작업2 원-핫 인코딩 안될때
선생님!노트북에 있는 코드 그대로 실행했는데위처럼 원-핫 인코딩이 안되는데 ㅠ에러도 안뜨고...이건 무슨 문제일까요? 강의 15분 35초 정도입니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1-1문제에서 이렇게 하면 왜 틀린 답이 나올까요?
import pandas as pd df = pd.read_csv("basic1.csv") # age컬럼 오름차순 정렬 df['age']=df['age'].sort_values(ascending=True) # age컬럼 3사분위수, 1사분위수 구해서 절대값 차 구하기 print(df['age'].loc[24]) print(df['age'].loc[74]) print(int(abs((df['age'].loc[24])-(df['age'].loc[74]))))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제3 - 9번
위의 에러가 발생하여 질문드립니다.맨 아래는 제가 작성한 전체 코드 이고,df['subscribed'] = pd.to_datetime(df['subscribed']) 위 코드에서 에러가 발생한 것입니다. from google.colab import drive drive.mount('/content/drive') import pandas as pd import numpy as np df = pd.read_csv('/content/drive/MyDrive/bigdata(빅분기 놀이터)/빅분기 놀이터 Dataset/members.csv') # print(df.head()) df['subscribed'] = pd.to_datetime(df['subscribed']) df['month'] = df['subscribed'].df.month df = df.groupby(df['month']).count() print(df.sort_values('subscribed').index[0])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[2유형] 부분점수
안녕하세요.혹시 2유형 부분점수도 존재할까요? 그리고 sklearn에는 rmse 함수가 없다고 하셨는데그러면 무조건 rmse로 평가지표로 문제가 나오면def(rmse) ~~ 함수 생성해 줘야하는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 7회 1유형 3번문제에서 이상치를 구하는 코드를 사용할때 이것도 맞는건가요??
q1 = df['CO2'].quantile(.25)q3 = df['CO2'].quantile(.75)IQR = q3 - q1-> sum(df['CO2'] < q1 - 1.5 IQR) + sum(df['CO2'] > q3 + 1.5 IQR)이렇게 코드를 써도 나중에 IQR 이상치를 구하는 문제에서 별 문제가 없을까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 모의고사 2번
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 a1 = a[['s1','s2','s3','s4','s5']]sum = a1.sum(axis=1)>0.1print(sum.sum()) 문제에서 요구한 칼럼을 뽑아서 새로운 데이터 프레임을 만들어서 코딩했습니다. 이렇게 하니 102개가 나왔는데, 어떤 부분에서 문제가 발생하는지 잘 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코랩의 노트북 작업시 질문입니다.
코랩의 노트북 작업시 질문입니다. 노트북에서 한번 따라쳐보고 밑에서 새로 혼자 작성해보는 식으로 해보는데요, 언제부턴가 한번 코드를 치고난 후에는, 코드가 자꾸 자동완성이 되서 치기도 전에 코드가 완성되더라구요.혹시 노트북내에서 자동완성 기능을 끌 수 있는 방법이 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 - 문제2 질문
이렇게 제 나름대로 풀이를 적어서 실행시켜 보았는데, 계속 에러가 떠서 질문 드립니다!제가 작성한 코드 입니다.from google.colab import drive drive.mount('/content/drive') import pandas as pd import numpy as np df = pd.read_csv('/content/drive/MyDrive/bigdata(빅분기 놀이터)/빅분기 놀이터 Dataset/members.csv') cond1 = df.isnull().sum() / len(df) >= 0.3 df[cond1] = df[cond1].dropna() cond2 = (df.isnull().sum() / len(df) >= 0.2) | (df.isnull().sum() / len(df) < 0.3) df[cond2] = df[cond2].fillna(df[cond2].mode()[0]) print(len(df[df['f3'] == 'gold']))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 오류
계속 이렇게 오류가 뜨고 파일이 안불러와지는데 어떻게 해야하나요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
양측검정의 pvalue
양측검정의 pvalue는 해석할때 그대로 해석하면 되는걸까요?예를들어 검정결과가MannwhitneyuResult(statistic=27036.0, pvalue=0.9807458376150018) 이런식으로 나왔다면 귀무가설을 지지한다는 결과는 같지만, 양측검정이어서 pvalue가 0.98에 대한 1/2의 값인 0.49로 인해서 지지한다고 봐야할지, 아니면 그대로 0.98이어서 지지한다고 해석해야할지 헷갈립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
statsmodel.formula.api.ols와 sklearn.linear_model.LinearRegression의 차이
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요선형회귀분석에서 statsmodel.formula.api.ols와 sklearn.linear_model.LinearRegression의 차이가 궁금합니다. 어떨 때 ols를 쓰고, 어떨때 LinearRegression을 쓰는지 구분이 잘 안돼요.