묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df 데이터에서 iloc를 이용해 train, test 데이터로 나누는 방법
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요5분 14초에서 train=df.iloc[:210]에서 뒤에 .copy() 안붙여도 되나요?train=df.iloc[:210]test=df.iloc[210:]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중회귀분석에서 유의수준이 0.05가 아니라면 어디서 값을 설정해줘야 하나요?
from statsmodels.formula.api import ols formula = "temperature~solar+wind+o3" model = ols(formula, data=df).fit() print(model.summary())위는 유의수준 기본값이 0.05인 거죠? 그렇다면 유의수준 0.01로 분석할때 어디서 설정을 해줘야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
lightgbm 을 사용해서 만들어봤는데요 중간에 이렇게 나와요
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요3회 2유형으로 lightGBM을 활용해 봤는데요... 에러가 나와요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ols 모델 해석
공부하다보니 statsmodels ols 해석 관련해서 헷갈리는 부분이 있습니다.statsmodel로 ols 모델 만들어두고 model.summary()로 해석하거나 anova_lm(model)로 해석할 수 있던데, 두개의 차이점이 뭔가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T1-23
캐글에 올려주신 자료 중 T1-23 문제를 풀고 있습니다.f1컬럼에서 10번째로 큰 값을 찾는 중에 질문이 생겨 질문 드립니다! 실제로 f1을 소팅해서 보면 중복값이 있어 10번째로 큰 값이 86인데 선생님 풀이에는 소팅해서 10번째에 있는 값인 88로 대체하셨더라고요실제 값에 관계없이 10번째에 위치한 값으로 대체해도 되는 건가요? 선생님 풀이)# f1데이터에서 10번째 큰 값으로 결측치를 채움top10 = df['f1'].sort_values(ascending=False).iloc[9]print(top10)df['f1'] = df['f1'].fillna(top10)결과) 88.0 실제 값 소팅 결과)print(df.sort_values('f1',ascending=False).head(15)) id age city f1 f2 f3 f4 f5 56 id57 3.0 대구 111.0 0 NaN ISFJ 29.269869 7 id08 38.0 서울 101.0 1 NaN INFJ 83.685380 57 id58 0.0 대구 100.0 2 NaN ESTP 33.308999 73 id74 45.0 경기 98.0 0 NaN ESTP 52.667078 71 id72 8.0 경기 97.0 0 NaN ESTJ 97.381034 69 id70 -9.0 경기 96.0 1 NaN ISTP 48.431184 77 id78 92.0 경기 96.0 1 NaN INTJ 69.730313 32 id33 47.0 부산 94.0 0 NaN ENFJ 17.252986 48 id49 75.0 대구 88.0 0 NaN INTP 37.113739 44 id45 97.0 대구 88.0 0 NaN ENFJ 13.049921 17 id18 41.0 서울 87.0 2 NaN ISFJ 80.138280 62 id63 88.0 경기 86.0 1 NaN ISFJ 73.586397 68 id69 75.0 경기 85.0 0 NaN ESTJ 69.730313 15 id16 68.0 서울 85.0 0 NaN ESFP 16.283854 4 id05 24.0 서울 85.0 2 NaN ISFJ 29.269869
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
sum과 len 수업중 질문이 있어요
count가 결측치를 체크하지 않아서 2라고 하셨는데 무슨 말인가요?ㅠㅠ 3분20초 내용입니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요저는 레이블인코딩으로 밀고나갈건데요!train의 범주형 컬럼의 카테고리 ⊂ test의 범주형 칼럼의 카테고리 이거나 아예 두개가 다를 경우만train, test 합친 후에 레이블 하고나머지의 경우는 그냥 레이블인코딩 하는걸로 암기하면되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 전처리
오브젝트 컬럼 전처리 시에예를들어 test에는 있는데 train에는 없다면 데이터를 합쳐서 라벨 또는 원핫 인코딩 가능하다면 데이터를 합친다는거는 train데이터와 test데이터를 합치는 거는 data_all = pd.concat(train,test) 이런식으로 합치고 인코딩 후 나누면 되나요?? 합친 후 인코딩 후 소스가 궁금합니다. 추가로 위와 같은경우에 바로 라벨인코딩하면 에러나나요? 만약 neigbourhood 컬럼 test 값에 train에 포함되지 않은 값이 있다면.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글에 올려주신 작업형 3유형 C로 감싸는 경우 문의
formula 를 작성할때 C 를 감싸는 경우는 문자값이지만 수치형일 경우 감싸는 사항아닌가요? C 를 붙이는지 안붙이는지에 따라서 결과값이 달라지네요. 아래 Pclass 는 수치형인데 C 가 붙혀져서 질문드려 봅니다. import pandas as pd from statsmodels.formula.api import logit df = pd.read_csv("/kaggle/input/bigdatacertificationkr/Titanic.csv") formula = "Survived ~ C(Pclass) + Gender + SibSp + Parch" model = logit(formula, data=df).fit() model.params
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 t1-20 데이터 병합
안녕하세요! 캐글에 올려주신 자료로 시험대비 잘 하고 있습니다!ㅎㅎT1-20 문제를 풀던 중에 데이터 병합하는 부분에서 궁금한 것이 있어 질문드립니다.선생님께서 풀이하신 것과 다르게 아래와 같이 풀었는데 답이 다르게 나오는데 혹시 이유를 알 수 있을까요?단지 f4컬럼을 기준으로 b1, b3 데이터를 병합하는거라 이해하고 이렇게 풀었습니다! df=pd.merge(b1, b3, on=['f4'])# print(df.shape)df=df.dropna(subset=['r2'])# print(df.shape)df=df.head(20)print(df['f2'].sum())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 7회 작업형1 1번 문제 문의
안녕하세요강사님은 푸실때 sklearn standardscaler로 풀었는데저는 직접 풀어서 계산했는데 소수점 2.15가 나옵니다. 뭐가 틀렸는지를 모르겠네요. 이렇게 하면 오답이되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
레이블 인코딩이 안되는 이유가 궁금합니다
import pandas as pd train = pd.read_csv("5_train.csv") test = pd.read_csv("5_test.csv") #EDA train.head() train.shape, test.shape # train.info() # train['price'].value_counts() train.isnull().sum() test.isnull().sum() cols = train.select_dtypes(include='O').columns print(train.shape, test.shape) # #Label Encoding from sklearn.preprocessing import LabelEncoder for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) print(train.shape, test.shape)안녕하세요 선생님! 에러는 안 나는데 레이블인코딩이 안되는데 뭐가 문제인지 모르겠습니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로그 스케일 질문
안녕하세요 🙂 MinMax, Standard 스케일링은 train, test 다 적용해줬는데 로그 스케일을 진행할 때는 train 데이터에만 적용해야 하는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀분석 관련하여 질문드립니다.
RMSE, RMSLE, MAPE 등 마지막으로 정리해서 외워두려고 하는데요최대한 넘파이 안쓰고 싸이킷런 안에 있는거로 정리하려고 합니다.RMSLE 경우에는 혹시 싸이킷런으로 정리 가능한 코드가 있을까요? ㅜㅜ import numpy as npfrom sklearn.metrics import mean_absolute_error, mean_squared_error, mean_absolute_percentage_error # RMSEdef rmse(y_val, pred):return np.sqrt(mean_squared_error(y_val, pred))혹은def rmse(y_val, y_pred):return mean_squared_error(y_val, y_pred)**0.5 # RMSLEdef rmsle(y_val, pred):return np.sqrt(np.mean(np.power(np.log1p(y_test) - np.log1p(y_pred), 2))) # MAPEdef mape(y_val, pred):return np.mean(np.abs((y_test - y_pred) / y_test)) * 100혹은def mape(y_val, pred):return mean_absolute_percentage_error(y_val, pred)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분산분석
정규성 및 등분산 만족 조건에 따라 다음과 같이 적용하는게 맞나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df.set_index
안녕하세요! 캐글 작업형 1-22 타임시리즈 부분을 공부하고 있는데 혹시 어떤 경우에 df.set_index()를 사용하나요?데이터 중 date 컬럼을 주 단위로 나누어 sales 의 합계를 구해야해서 나누는 기준이 되는 date 컬럼을 set_index하는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제2번 날짜 처리 관련
2번 문제 날짜 컬럼에서 연도만 뽑아낼때기존에 알려주셨던 datetime 형태로 변경하는것은 에러가 나는데 이유가 궁금합니다. # 연도 추출# df['날짜'] = pd.to_datetime(df['날짜']) # 오류df['연도'] = df['날짜'].str[:4]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출유형(작업형2)
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요선생님.심화학습 부분에서는 검증단계와 크로스밸리데이션을 둘 다 각자 사용하는 방법을 알려주셨는데, 순서가 궁금했습니다.먼저 train_test_split으로 데이터를 나눈 후 검증을 해보고 점수가 너무 높아서 과적합이 의심된다면 교차검증을 실행하는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출유형(작업형2) 오류 질문
import pandas as pd train = pd.read_csv("mart_train.csv") test = pd.read_csv("mart_test.csv") #train.head() #test.head() #train.isnull().sum() #test.isnull().sum() #train.info() target = train.pop('total') #print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) #print(train.shape, test.shape) from sklearn.model_selection import train_test_split X_tr, y_tr, X_val, y_val = train_test_split(train, target, test_size=0.2, random_state=0) from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(random_state=0) rf.fit(X_tr, y_tr) pred = rf.predict(X_val)질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요강의 보면서 따라했는데, ValueError: Found input variables with inconsistent numbers of samples: [560, 140]이렇게 에러가 뜨는데, 이유를 못찾겠습니다. 어떤게 문제인지 알 수 있을까요? 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시계열함수 dt 함수 기억안날 때 방법
pd.to_datetime 으로 데이터 타입 바꾸고 dt.year, dt.month, dt.total_seconds 같은 함수가 기억이 안날때 dir이나 help로 알 수 있는 방법 없을까요, 선생님