묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
stratify 설정 질문
선생님 강의 잘 듣고 있습니다. 다름이 아니라 예전에 혼자 공부할 때 데이터 분할을 할 때 stratify를 설정해서 데이터 불균형을 처리한다고 들었는데, 제가 놓친 것일 수도 있지만 선생님 강의에서는 따로 이에 관한 설명을 본 적이 없어서 질문드립니다. 2유형을 푸는 데에 있어서 stratify는 굳이 설정을 안 해도 문제가 없을까요? 아니면 시험 볼 때 설정을 해놓는 게 더 좋을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 2번 의사결정나무 오류
강사님 요거 왜 오류걸리는걸까요, 어제 문제 1번까지 듣고 오늘 다시 강의들어서 그런걸까 싶어서 이전 셀 실행까지 해보고 오탈자 검수도 계속하는데, 다음 단계로 넘어가지않아요ㅠㅠ원래 이렇게 어렵나용.. 비전공자라 그럴 수 있다고 생각되지만 너무 어렵네요..ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
너무 간단한건데 이해가 안됩니다 ㅠㅠ 정말 간단합니다.. 정규화
일단 이 문제는 캐글에서 선생님께서 생성해주신 문제구요.T1-9 수치형 변수 표준화 문제입니다. from sklearn.preprocessing import StandardScaler scaler = StandardScaler() df['f5']=scaler.fit_transform(df[['f5']]) df.head()요렇게 해야 한다고 했는데요 저는 세번째 줄을df['f5'] = scaler.fit_transform(df['f5'])로 했는데 오류가 나서 잘 보니까, transform 뒤에 df[['f5']] 로 답이 작성되어 있더라고요여기는 왜 []를 두번씩 감싸는 건가요????
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1모의문제1 - 문제2 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요문제2의 세번째 조건이 "컬럼의 'gold' 값을 가진 데이터 수를 출력하세요!"라고 나와 있습니다.강의에서는 아래 코드와 같이 sum으로 풀이해주셨는데 , sum 대신 len으로 작성해도 동일한 결과가 나옵니다.sum이나 len 어떤 걸 사용해도 상관없는 건지 궁금합니다. 데이터 수이기 때문에 len이 더 정확한 답일까요?print(sum(df[df['f3'] == 'gold']))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 모의문제 풀어보기(1-2)
컬럼별 행별 합산할때 axis=1을 썼는데 axis =0은 행방향, axis=1은 열방향으로 알고 있었는데 제가 잘못알고 있는걸까요?#위가 맞다면 행별 합산이니 axis =0으로 해야하는거 아닌가 해서 어떤 차이가 있나 궁금해 문의 드려요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
향후공부법 ㅠㅠㅠ
선생님...강의 들으면서 따라 치고는 있는데점점 뒤로갈수록 설명이 짧고 다 알고 있다는 전제하에 툭툭 넘어가시는건지 모르는것도 많고 ㅠ 이런 방법 저런 방법 알려주시려고 하다보니 제 머리속에서 엉키는데... 남은 강의 들으면서 어떻게 준비해야할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중회귀
안녕하세요 😊3유형을 잡고자 놀이터 문제 다 풀이하고 추가적으로 문제집 풀이 시작했는데다중 선형 회귀랑 다중 회귀 모형이 다른 거 일까요?? 문제집에 있는 거 풀이하다가 답이 달라서 한번 강사 님께서 올려주신 문제로 문제집에 있는 풀이 방법이랑 강사 님께서 해주신 풀이 방법으로 각각 해보니 서로 다른 답이 나오네요.. sm.OLS랑 formula.api.ols 차이를 알고 싶습니다!#데이터 import pandas as pd df = pd.DataFrame({ '매출액': [300, 320, 250, 360, 315, 328, 310, 335, 326, 280, 290, 300, 315, 328, 310, 335, 300, 400, 500, 600], '광고비': [70, 75, 30, 80, 72, 77, 70, 82, 70, 80, 68, 90, 72, 77, 70, 82, 40, 20, 75, 80], '플랫폼': [15, 16, 14, 20, 19, 17, 16, 19, 15, 20, 14, 5, 16, 17, 16, 14, 30, 40, 10, 50], '투자':[100, 0, 200, 0, 10, 0, 5, 0, 20, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] }) df.head(3) # 풀이 1 from statsmodels.formula.api import ols model1 = ols('매출액 ~ 광고비 + 플랫폼', data=df).fit() print(model1.summary()) #풀이2(문제집) import statsmodels.api as sm X=df[['광고비','플랫폼']] y=df[['매출액']] model2 = sm.OLS(y,X).fit() print(model2.summary())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
카이제곱통계량 독립성 검정, 적합성 검정 문의입니다.
카이제곱통계량 독립성 검정 시, crosstab을 이용해 표를 만들어 chi2_contingency 이용해 값을 구하고적합성 검정 시, 리스트를 만들어 관찰값, 예측값을 chisquare을 이용해 값을 구한다 이렇게 이해하면 될가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증데이터 분리
검증데이터를 분리할때X_tr, X_val 은 (909, 12) (161,12) 로 열이 12인데 y_tr, y_val 은 왜 열값이 안나오는지 궁금합니다. X_train 변수와 y_train 변수에 대한 정의를 잘 모르겠습니다. 제가 이해한것은 아래와 같은데 이것이 맞나요?X_train : 학습용 데이터X_test : ??y_train : X_train을 통해 학습한 모델로 예측할 데이터y_test(우리가 pred에 저장할값) : X_test를 통해 학습한 모델로(X_train을 통해 학습해 만든 모델과는 다름) 예측한 데이터 추가로 X_test 가 하는 역할이 헷갈립니다. X_train을 학습한 후 학습모델로 예측을 하는 예측의 결과를 X_test에 담는것인지, 아니면 X_train을 학습했던것처럼 똑같이 X_test라는 검증용 데이터를 한번 더 학습하는것인지 잘 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의학습 문의
현재 강의를 들으면서 노트북(블랭크)를 이용해 한번씩 따라쳐보며 학습하고 있습니다. 근데 강의가 뒤로갈수록 외워야하는 부분도 많고, 시험에 이걸 잘 적용해서 풀 수 있을까 이런 의문이 들어서요. 어떤식으로 공부를 해야하는지 잘 모르겠습니다. 강의내용을 다 외우면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분위수 질문 드립니다
안녕하세요분위수 구할 때,df[컬럼명].describe()[‘75%‘]시험에서 위와 같은 방법으로 구해도 무관한가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코드 암기 범위 질문드립니다.
선생님, 이전에 데이터 불러오는 코드는 문제에서 제시 해준다고 했는데 마지막 제출 하는 코드예를들어submit = pd.DataFrame( { 'id':X_test['id'], 'income':pred } )submit.to_csv("11111.csv", index=False)이런거도 다 외워서 써야하나요? 아직 완강을 안해서 지엽적인 질문을 하는건지..ㅠ일단 다 듣고 한번 더 들으면 개념이 확실히 잡히려나요...분석이나 문제 풀이에 대한 코드들은 외우고 있는데 위와 같은 제출코드나 데이터 불러오는 코드 같은건 어디까지 외워야 하는지 감이 도통 안잡히네요! 이 부분에 대한 강의도 뒷부분에 있을까요~?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
구버전 영상 (삭제 예정)
마지막 4개의 구버전 영상 (삭제 예정)은 학습하지 않아도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
random_state
회귀, 분류 모델에서 하이퍼파라미터 튜닝 시 random_state를 이용하는데, 이 random_state 역할이 '회귀, 분류 모델에서 매번 코딩 실행 시 동일한 학습용 데이터셋을 생성하여 동일한 결과를 출력하게 한다'가 맞는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
피처엔지니어링 - 원핫인코딩 get_dummies()
안녕하세요, 덕분에 재미있게 빅분기 실기 시험 준비 중입니다 : )범주형 변수의 unique 수가 train 데이터셋과 test 데이터셋에서 서로 다를 때, 원핫인코딩을 진행하게 되면 Feature의 수가 다르므로 일치시키기 위해... train 데이터셋과 test 데이터셋을 먼저 concat으로 합친 후에 원핫인코딩을 진행하고 분리하는 것으로 이해했습니다!기존 질문과 답변주신 것들을 살펴보니, get_dummies() 사용 시, 자동으로 범주형 변수만 선택하여 원핫인코딩하고 전체데이터를 반환하므로 X_train 데이터를 사용해도 무관하다고 하셨는데요~ 수업에서는 all_df = pd.get_dummies(all_df[cols])로 작성하니 범주형 변수 cols에 해당하는 데이터만 원핫인코딩되어 전체데이터가 아닌 범주형 변수의 원핫인코딩 결과만 all_df에 담기게 되는 것 같습니다. 말씀주신 것처럼, 자동으로 범주형 변수만 원핫인코딩하고 전체 데이터를 반환하기 위해서는, 이 코드를 all_df = pd.get_dummies(all_df)로 바꾸어야 되는게 맞는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
predict_proba 관련 질문
작업형2 모의문제1 - 29:00 경 pred 값 할당할 때, predict_proba 를 사용하는 이유는roc_auc 값을 구해야 하기 때문인가요?roc_auc 값 외에도 다른 평가지표들이 있는데 그냥 predict를 사용하면 안되는지 문의드립니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2
안녕하세요, 코린이입니다문제가 age 컬럼의 이상치를 제거하고 제거전후 views 컬럼 편차를 구하는거고..age 컬럼 이상치를 제거하면 views 컬럼에 있는 age 이상치 행도 같이 날라가나요 ? 그래서 제거전후 편차를 구하게 되는걸까요 ? import pandas as pd df = pd.read_csv("members.csv") r1 = df['views'].std() cond = df['age'] <= 0 # print(df.shape) df = df[~cond] # print(df.shape) # print(df.shape) cond = df['age'] == round(df['age'],0) # 소숫점 나이 구하기, 반올림 했을 때 같으면 정수형 , 다르면 소수점 df = df[cond] # print(df.shape) r2 = df['views'].std() print(round(r1 + r2, 2))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문입니다!
from statsmodels.formula.api import ols과 summary만 사용해서 회귀계수, P-value값 등을 읽을 줄만 알아도 시험문제를 푸는데 문제없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원 핫 인코딩에서...
선생님 저는 왜 false/true 값으로만 나올까요?수업 자료 코드에 있던거 그대로 실행 했는데도..display(c_train.head()) c_train = pd.get_dummies(c_train[cols]) c_test = pd.get_dummies(c_test[cols]) display(c_train.head())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
kaggle 오류
케글 T1-3 연습중인데 아래와 같은 오류가 발생하는데 어떻게 해결할 수 있을까요? maximum recursion depth exceeded while calling a Python object