묻고 답해요
137만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요. 섹션4 작업형2에서 원핫 인코딩을 배울 때는 이렇게 배웠었는데 기출문제를 풀 때는이렇게 해서 똑같이 원핫 인코딩을 해주는데 두개의 방식의 결과는 차이가 없는거죠?그러면 기출문제 풀이가 더 간단하니까 아래 방식대로 하는게 나은거 겠죠?train=pd.get_dummies(train)test=pd.get_dummies(test)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3과목 문제 접근법 문의
3과목 문제와 관련하여, 선생님이 '가설검정', '카이제곱', '회귀분석', '분산분석' 등을 알려주셨는데,문제를 보자마자 이게 어떤 것으로 풀면되는지는 어떻게 아나요? 문제에서 어떤 검정을 써라고하는지 친절히 알려주나요? 아니면 저희가 추론해서 풀어야하나요?3과목에서 만약 알려주시지 않은 검정이 나오면 dir/help 통해서 함수를 추정해서 풀어가야하나요?대립가설과 귀무가설 역시 문제에서 무조건 알려주는 걸까요? (샤피로 정규성 검정 같은 경우, 무조건 귀무가설이 정규성을 만족한다여서 헷갈립니다.)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이 시점에서
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요약 일주일남기고 완강했습니다!지금 이 시점에서강의 커리큘럼에 있는 기출을 다시 복습하는게 나을까요?아니면 캐글가서 1~3작업형을 새롭게 풀어보는 것이 나을까요?아니면 캐글에서 꼭 이부분만은 우선적으로 봐야한다가 있을까요? 완강은 했지만 얼마 안남아서 걱정입니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
안녕하세요 코랩 오류가 왜 뜨는걸까요..?
기출2회 작업형 1풀고 있습니다.자꾸 print 구문 사용하려고 하면 아래와 같은 에러가 발생해서 print없이 마지막에 보고싶은 내용 적어서 보고있습니다. 왜 오류나는지 아시는분 있나요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
value 값 제거
train.describe()시 2060값이 이상치값인거같아 만약 제거하고싶을 땐 어떻게 해야 할까요? sort_values로 행을 찾아 drop으로 제거해야 하는걸까요? 코드를 어떻게 짜야할지 알 수 있을까요ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 2형 문의드립니다 (cross_val_score)
cross_val_score를 활용해서 rmse 평가를 시도해보았습니다.SCORERS에서 가장 유사하다고 판단되는 'neg_root_mean_squared_error'를 활용하였고, 음수로 나타난 값들을 얻었습니다.cross_val_score 함수는 값이 클 수록 좋은 모델임을 의미하므로, 보다 더 큰 값(더 작은 음수값)을 뱉는 모델을 찾아야 하는 것인지,혹은, RMSE 정의에 따라 에러값이 더 작은 값(더 큰 음수값)을 뱉는 모델을 찾아야 하는 것인지 문의를 드립니다. 예를 들어, cross_val 평균 측정값이#rf1 -399521.89795809553#rf6 -377713.996299675일 때, rf1과 rf6 중 어느 모델을 선택하는 것이 맞는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일링시 데이터 분리 없이 하는 방법
dcols = train.select_dtypes(include='O').columnsncols = train.select_dtypes(exclude='O').columns위처럼 데이터를 인코딩과 스케일링 작업하기 전에 수치형, 오브젝트의 컬럼명을 변수에 미리 저장해 놓고, 아래처럼 분리 없이 스케일링과 인코딩 작업을 진행해도 되는지 궁금합니다. 동작은 제대로 하는 것 같아서 굳이 분리해야 하나 의문이 들어 질문 드립니다. 라벨인코딩과 스탠다드 스케일러를 둘 다사용한다고 가정했을 때 입니다. from sklearn.preprocessing import StandardScalerscale = StandardScaler()train[ncols] = scale.fit_transform(train[ncols])test[ncols] = scale.fit_transform(test[ncols]) from sklearn.preprocessing import LabelEncoderle = LabelEncoder() for col in dcols:train[col] = le.fit_transform(train[col])test[col] = le.fit_transform(test[col])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
LabelEncoder 관련해서 질문드립니다.
범주형 데이터를 Feature engineering 할때 train과 test가 같은 피처의 범주가 다를 경우 합친 후 get_dummies를 통해 한번에 진행해주셧는데요. 만약에 LabelEncode로 진행할 경우 Train에서는 fit_transform 을 하고 test에서 transform 만하는데 all_df로 합친후 어떻게 하면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제3 9번문제
df = df['month'].value_counts()이런식으로 values_counts로 구하는 방법이 있을까요?또 빅분기 실기 시험 채점(?) 방식에 대해서도 궁금한게,저런식으로 value_counts()를 하면 정답이 바로 눈에 보이잖아요! 그럼 그 정답을 바로 print(11)로 해도 인정이 되는지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df 데이터에서 iloc를 이용해 train, test 데이터로 나누는 방법
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요5분 14초에서 train=df.iloc[:210]에서 뒤에 .copy() 안붙여도 되나요?train=df.iloc[:210]test=df.iloc[210:]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중회귀분석에서 유의수준이 0.05가 아니라면 어디서 값을 설정해줘야 하나요?
from statsmodels.formula.api import ols formula = "temperature~solar+wind+o3" model = ols(formula, data=df).fit() print(model.summary())위는 유의수준 기본값이 0.05인 거죠? 그렇다면 유의수준 0.01로 분석할때 어디서 설정을 해줘야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
lightgbm 을 사용해서 만들어봤는데요 중간에 이렇게 나와요
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요3회 2유형으로 lightGBM을 활용해 봤는데요... 에러가 나와요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ols 모델 해석
공부하다보니 statsmodels ols 해석 관련해서 헷갈리는 부분이 있습니다.statsmodel로 ols 모델 만들어두고 model.summary()로 해석하거나 anova_lm(model)로 해석할 수 있던데, 두개의 차이점이 뭔가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T1-23
캐글에 올려주신 자료 중 T1-23 문제를 풀고 있습니다.f1컬럼에서 10번째로 큰 값을 찾는 중에 질문이 생겨 질문 드립니다! 실제로 f1을 소팅해서 보면 중복값이 있어 10번째로 큰 값이 86인데 선생님 풀이에는 소팅해서 10번째에 있는 값인 88로 대체하셨더라고요실제 값에 관계없이 10번째에 위치한 값으로 대체해도 되는 건가요? 선생님 풀이)# f1데이터에서 10번째 큰 값으로 결측치를 채움top10 = df['f1'].sort_values(ascending=False).iloc[9]print(top10)df['f1'] = df['f1'].fillna(top10)결과) 88.0 실제 값 소팅 결과)print(df.sort_values('f1',ascending=False).head(15)) id age city f1 f2 f3 f4 f5 56 id57 3.0 대구 111.0 0 NaN ISFJ 29.269869 7 id08 38.0 서울 101.0 1 NaN INFJ 83.685380 57 id58 0.0 대구 100.0 2 NaN ESTP 33.308999 73 id74 45.0 경기 98.0 0 NaN ESTP 52.667078 71 id72 8.0 경기 97.0 0 NaN ESTJ 97.381034 69 id70 -9.0 경기 96.0 1 NaN ISTP 48.431184 77 id78 92.0 경기 96.0 1 NaN INTJ 69.730313 32 id33 47.0 부산 94.0 0 NaN ENFJ 17.252986 48 id49 75.0 대구 88.0 0 NaN INTP 37.113739 44 id45 97.0 대구 88.0 0 NaN ENFJ 13.049921 17 id18 41.0 서울 87.0 2 NaN ISFJ 80.138280 62 id63 88.0 경기 86.0 1 NaN ISFJ 73.586397 68 id69 75.0 경기 85.0 0 NaN ESTJ 69.730313 15 id16 68.0 서울 85.0 0 NaN ESFP 16.283854 4 id05 24.0 서울 85.0 2 NaN ISFJ 29.269869
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
sum과 len 수업중 질문이 있어요
count가 결측치를 체크하지 않아서 2라고 하셨는데 무슨 말인가요?ㅠㅠ 3분20초 내용입니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요저는 레이블인코딩으로 밀고나갈건데요!train의 범주형 컬럼의 카테고리 ⊂ test의 범주형 칼럼의 카테고리 이거나 아예 두개가 다를 경우만train, test 합친 후에 레이블 하고나머지의 경우는 그냥 레이블인코딩 하는걸로 암기하면되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 전처리
오브젝트 컬럼 전처리 시에예를들어 test에는 있는데 train에는 없다면 데이터를 합쳐서 라벨 또는 원핫 인코딩 가능하다면 데이터를 합친다는거는 train데이터와 test데이터를 합치는 거는 data_all = pd.concat(train,test) 이런식으로 합치고 인코딩 후 나누면 되나요?? 합친 후 인코딩 후 소스가 궁금합니다. 추가로 위와 같은경우에 바로 라벨인코딩하면 에러나나요? 만약 neigbourhood 컬럼 test 값에 train에 포함되지 않은 값이 있다면.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글에 올려주신 작업형 3유형 C로 감싸는 경우 문의
formula 를 작성할때 C 를 감싸는 경우는 문자값이지만 수치형일 경우 감싸는 사항아닌가요? C 를 붙이는지 안붙이는지에 따라서 결과값이 달라지네요. 아래 Pclass 는 수치형인데 C 가 붙혀져서 질문드려 봅니다. import pandas as pd from statsmodels.formula.api import logit df = pd.read_csv("/kaggle/input/bigdatacertificationkr/Titanic.csv") formula = "Survived ~ C(Pclass) + Gender + SibSp + Parch" model = logit(formula, data=df).fit() model.params
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 t1-20 데이터 병합
안녕하세요! 캐글에 올려주신 자료로 시험대비 잘 하고 있습니다!ㅎㅎT1-20 문제를 풀던 중에 데이터 병합하는 부분에서 궁금한 것이 있어 질문드립니다.선생님께서 풀이하신 것과 다르게 아래와 같이 풀었는데 답이 다르게 나오는데 혹시 이유를 알 수 있을까요?단지 f4컬럼을 기준으로 b1, b3 데이터를 병합하는거라 이해하고 이렇게 풀었습니다! df=pd.merge(b1, b3, on=['f4'])# print(df.shape)df=df.dropna(subset=['r2'])# print(df.shape)df=df.head(20)print(df['f2'].sum())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 7회 작업형1 1번 문제 문의
안녕하세요강사님은 푸실때 sklearn standardscaler로 풀었는데저는 직접 풀어서 계산했는데 소수점 2.15가 나옵니다. 뭐가 틀렸는지를 모르겠네요. 이렇게 하면 오답이되는건가요?