묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
sum과 len 수업중 질문이 있어요
count가 결측치를 체크하지 않아서 2라고 하셨는데 무슨 말인가요?ㅠㅠ 3분20초 내용입니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요저는 레이블인코딩으로 밀고나갈건데요!train의 범주형 컬럼의 카테고리 ⊂ test의 범주형 칼럼의 카테고리 이거나 아예 두개가 다를 경우만train, test 합친 후에 레이블 하고나머지의 경우는 그냥 레이블인코딩 하는걸로 암기하면되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 전처리
오브젝트 컬럼 전처리 시에예를들어 test에는 있는데 train에는 없다면 데이터를 합쳐서 라벨 또는 원핫 인코딩 가능하다면 데이터를 합친다는거는 train데이터와 test데이터를 합치는 거는 data_all = pd.concat(train,test) 이런식으로 합치고 인코딩 후 나누면 되나요?? 합친 후 인코딩 후 소스가 궁금합니다. 추가로 위와 같은경우에 바로 라벨인코딩하면 에러나나요? 만약 neigbourhood 컬럼 test 값에 train에 포함되지 않은 값이 있다면.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글에 올려주신 작업형 3유형 C로 감싸는 경우 문의
formula 를 작성할때 C 를 감싸는 경우는 문자값이지만 수치형일 경우 감싸는 사항아닌가요? C 를 붙이는지 안붙이는지에 따라서 결과값이 달라지네요. 아래 Pclass 는 수치형인데 C 가 붙혀져서 질문드려 봅니다. import pandas as pd from statsmodels.formula.api import logit df = pd.read_csv("/kaggle/input/bigdatacertificationkr/Titanic.csv") formula = "Survived ~ C(Pclass) + Gender + SibSp + Parch" model = logit(formula, data=df).fit() model.params
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 t1-20 데이터 병합
안녕하세요! 캐글에 올려주신 자료로 시험대비 잘 하고 있습니다!ㅎㅎT1-20 문제를 풀던 중에 데이터 병합하는 부분에서 궁금한 것이 있어 질문드립니다.선생님께서 풀이하신 것과 다르게 아래와 같이 풀었는데 답이 다르게 나오는데 혹시 이유를 알 수 있을까요?단지 f4컬럼을 기준으로 b1, b3 데이터를 병합하는거라 이해하고 이렇게 풀었습니다! df=pd.merge(b1, b3, on=['f4'])# print(df.shape)df=df.dropna(subset=['r2'])# print(df.shape)df=df.head(20)print(df['f2'].sum())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 7회 작업형1 1번 문제 문의
안녕하세요강사님은 푸실때 sklearn standardscaler로 풀었는데저는 직접 풀어서 계산했는데 소수점 2.15가 나옵니다. 뭐가 틀렸는지를 모르겠네요. 이렇게 하면 오답이되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
레이블 인코딩이 안되는 이유가 궁금합니다
import pandas as pd train = pd.read_csv("5_train.csv") test = pd.read_csv("5_test.csv") #EDA train.head() train.shape, test.shape # train.info() # train['price'].value_counts() train.isnull().sum() test.isnull().sum() cols = train.select_dtypes(include='O').columns print(train.shape, test.shape) # #Label Encoding from sklearn.preprocessing import LabelEncoder for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) print(train.shape, test.shape)안녕하세요 선생님! 에러는 안 나는데 레이블인코딩이 안되는데 뭐가 문제인지 모르겠습니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로그 스케일 질문
안녕하세요 🙂 MinMax, Standard 스케일링은 train, test 다 적용해줬는데 로그 스케일을 진행할 때는 train 데이터에만 적용해야 하는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀분석 관련하여 질문드립니다.
RMSE, RMSLE, MAPE 등 마지막으로 정리해서 외워두려고 하는데요최대한 넘파이 안쓰고 싸이킷런 안에 있는거로 정리하려고 합니다.RMSLE 경우에는 혹시 싸이킷런으로 정리 가능한 코드가 있을까요? ㅜㅜ import numpy as npfrom sklearn.metrics import mean_absolute_error, mean_squared_error, mean_absolute_percentage_error # RMSEdef rmse(y_val, pred):return np.sqrt(mean_squared_error(y_val, pred))혹은def rmse(y_val, y_pred):return mean_squared_error(y_val, y_pred)**0.5 # RMSLEdef rmsle(y_val, pred):return np.sqrt(np.mean(np.power(np.log1p(y_test) - np.log1p(y_pred), 2))) # MAPEdef mape(y_val, pred):return np.mean(np.abs((y_test - y_pred) / y_test)) * 100혹은def mape(y_val, pred):return mean_absolute_percentage_error(y_val, pred)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분산분석
정규성 및 등분산 만족 조건에 따라 다음과 같이 적용하는게 맞나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df.set_index
안녕하세요! 캐글 작업형 1-22 타임시리즈 부분을 공부하고 있는데 혹시 어떤 경우에 df.set_index()를 사용하나요?데이터 중 date 컬럼을 주 단위로 나누어 sales 의 합계를 구해야해서 나누는 기준이 되는 date 컬럼을 set_index하는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제2번 날짜 처리 관련
2번 문제 날짜 컬럼에서 연도만 뽑아낼때기존에 알려주셨던 datetime 형태로 변경하는것은 에러가 나는데 이유가 궁금합니다. # 연도 추출# df['날짜'] = pd.to_datetime(df['날짜']) # 오류df['연도'] = df['날짜'].str[:4]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출유형(작업형2)
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요선생님.심화학습 부분에서는 검증단계와 크로스밸리데이션을 둘 다 각자 사용하는 방법을 알려주셨는데, 순서가 궁금했습니다.먼저 train_test_split으로 데이터를 나눈 후 검증을 해보고 점수가 너무 높아서 과적합이 의심된다면 교차검증을 실행하는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출유형(작업형2) 오류 질문
import pandas as pd train = pd.read_csv("mart_train.csv") test = pd.read_csv("mart_test.csv") #train.head() #test.head() #train.isnull().sum() #test.isnull().sum() #train.info() target = train.pop('total') #print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) #print(train.shape, test.shape) from sklearn.model_selection import train_test_split X_tr, y_tr, X_val, y_val = train_test_split(train, target, test_size=0.2, random_state=0) from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(random_state=0) rf.fit(X_tr, y_tr) pred = rf.predict(X_val)질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요강의 보면서 따라했는데, ValueError: Found input variables with inconsistent numbers of samples: [560, 140]이렇게 에러가 뜨는데, 이유를 못찾겠습니다. 어떤게 문제인지 알 수 있을까요? 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시계열함수 dt 함수 기억안날 때 방법
pd.to_datetime 으로 데이터 타입 바꾸고 dt.year, dt.month, dt.total_seconds 같은 함수가 기억이 안날때 dir이나 help로 알 수 있는 방법 없을까요, 선생님
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모의문제 test_id pop
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요? 선생님 강의를 듣다보니 pop 함수에 대해 궁금한 점이 생겼습니다. 선생님께선 train에는 drop을 쓰시고 test에는 pop을 쓰셨는데, 혹시 test에도 drop을 써도 되나요? 강의에서pop은 대입하고 컬럼을 삭제한다고 하셨는데, test_id = test.drop('id', axis=1)하면 test 컬럼에는 id가 남아있고 test_id에만 id 컬럼이 삭제된 후 들어가니 drop을 써도 되지 않나 해서요....
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가데이터
from sklearn.ensemble import RandomForestClassifierrf=RandomForestClassifier(random_state=2022)rf.fit(x_tr, y_tr) #학습시킴pred=rf.predict(test) #문제 풀어봄 f1_score(정답데이터, pred) 만약 시험장 간다면 predict에 test데이터를 넣어야할텐데 f1_score에 들어갈 정답 데이터는 홀드아웃 교차검정시 쪼개진 데이터에서는 없는게 맞나요?? 시험출제자가 주지는 않겠지만 y_test가 정답데이터가 되는거죠???그럼 만약 시험 출제자분께서 y_test를 준다면 from sklearn.ensemble import RandomForestClassifierrf=RandomForestClassifier(random_state=2022)rf.fit(x_tr, y_tr) #학습시킴pred=rf.predict(test) #문제 풀어봄 f1_score(y_test, pred) 이렇게 되는게 맞는거죵?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션 9 강의내용 질문(일원분산분석)
안녕하세요, 섹션 9 일원분산분석 강의 8:34 경 질문있습니다.사후검정으로 일원분산분석시에도 어떤 집단에서 유의미한 차이가 있는지를 학습하고 이해했는데요.# Bonferroni(본페로니)mc = MultiComparison(df_melt['value'], df_melt['variable']) bon_result = mc.allpairtest(stats.ttest_ind, method='bonf') print(bon_result[0])(질문1) 마지막줄에 bon_result[0] 왜 0이 들어가게 된 건지 설명 부탁드리겠습니다. (질문2) 혹시 가설검정 H0 채택/기각 여부 외에 이런부분까지도 출제될 수 있는건가요? (다른 강의를 듣다가 넘어왔는데, 이 부분은 완전 처음들어봤습니다..) 시간이 얼마 없어서, 다른 부분(2유형 코드짜는걸) 집중해서 암기하려고 하는데 조언 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 답안제출 질문 있습니다
이진분류 모델을 제출할떄는 보통 pred부분에 확률을 적어서 제출하는게 일반적일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 데이터 병합
캐글 작업형 1 T1 - 20b1와 b3 데이터를 f4 기준으로 병합하기 위해서df = pd.merge(left = b1, right = b3, how = 'left', on = 'f4') 식을 사용하셨는데 혹시 여기서 how = 'left'의 의미는 무엇인가요?? 이 문제를 pd.concat으로도 풀 수 있는지 궁금합니다.