묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형에서 인코딩한 범주형 변수도 스케일링할 때 넣어줘야 하나요?
안녕하세요. 스케일링에 대해서 여쭤보고 싶은게 있습니다. 스케일링을 진행할 때, 인코딩된 범주형 변수와수치형이지만 범주형 성격을 띄는 변수들도 함께 스케일링을 진행해주어야 하는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼파라미터튜닝
random_state, max_depth, n_estimators 같은 하이퍼파라미터튜닝은 모든 회귀, 분류 모델에서 사용가능한가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
테스트 사이즈와 랜덤스테이트
선생님, 실제 시험에서 테스트 사이즈와 랜덤 스테이츠를 입력 해 줘야하나요?사이즈값이나 스테이트값 작성하는 기준은 무엇인가요!?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험시 라이브러리 import관련
시험에서는 따로 라이브러리를 추가할 수 없다고 했던것 같은데... 강의에서 공부를 할때 sklearn 등 라이브러리를 불러오는 코드는 시험에서 따로 작성하면 안되지요?예시 : from sklearn.ensemble import RandomForestClassifier 예시 문장을 시험에서 작성해도 되는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
사후검정에서 '투키'하고 '본페로니' 둘중에 하나만 알아도 될까요?
사후검정을 진행할 때 선생님이 대표적으로 '투키' 하고 '본페로니' 두개를 많이 쓰신다고 하셨었는데.혹시 투키하고 본페로니 둘다 알아야할까요? 아니면 둘중에 하나만 외워도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시계열 데이터 관련 문의입니다.
기출문제 1번에서는 출동시간과 도착시간이 년월일시분초 다 있어서 datetime에 문제없는데혹시 출동시간 컬럼에 102030 시분초 또는 년월일만 있어도 datetime으로 변경이 가능한가요?만약 변경이 안된다면 변경하는 방법이 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형(작업형1) 문제2번
문제2주어진 데이터셋(members.csv)의 앞에서부터 순서대로 80% 데이터만 활용해 'f1'컬럼 결측치를 중앙값으로 채우기 전 후의 표준편차를 구하고, 두 표준편차 차이 계산하기 (단, 표본표준편차 기준, 두 표준편차 차이는 절대값으로 계산)풀이# your code df = pd.read_csv("members.csv") # df.shape df1 = df.loc[:79] df1.isnull().sum() # print(df1.describe()) bf = 20.574853 # print(df1.head()) # print(df1.isnull().sum()) df1['f1'] = df1['f1'].fillna(df1['f1'].median()) # print(df1.isnull().sum()) # print(df1.head()) # print(df1.describe()) af = 17.010789 print(bf-af) 이런식으로 describe함수에서 나오는 값으로 풀었는데실제 시험에서도 이렇게 문제를 풀어도 상관없을까요?? 영상에서 풀이한 값과 소수점 자리가 다르더라구요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pred[:,1] 완벽 구별법
실제로 시험이 나올때pred[:,1]를 무작정 쓰면 큰일날것 같습니다.어떨때는 pred[:,1]을 쓰고 어떨때는pred[:,0]을 쓰는게 맞는지 알려주시면 감사하겠습니다.단순히 분류값이 0일 확률에 대한건 pred[:,0], 1에 대한건 pred[:,1]로 보는게 맞는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 문제에서 '결측치'가 있을 때의 처리방법
작업형 2번에서'결측치'가 있다면 그 결측치들을 삭제하고 진행시키는 게 좋을까요? 아니면 그 결측치들을 전부 0으로 채우는 게 나을까요?혹시 이렇게 그냥 아예 결측치 컬럼을 삭제하거나 0으로 채워도 40점이 나올 수 있을까요.? ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증데이터 분리 질문
검증데이터를 분리할때X_tr, X_val 은 (909, 12) (161,12) 로 열이 12인데 y_tr, y_val 은 왜 열값이 안나오는지 궁금합니다.이 질문에 대한 답변을 받았는데 답변이 이해가 안가서 재질문합니다~ 이해하기 쉽게 설명이 더 추가될수 있을까요? 받은답변: 와우! 정확히 보셨어요! 거기에 만약 1이 적히면 데이터프레임이 됩니다. 모델 학습시 타겟이 데이터프레임으로 들어가면 워닝이나 에러가 발생할 수 있어요. 시리즈라서 열값이 나오지 않습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님 마지막 공부법 질문요!
머리식힐겸 유튜브 채널에 있는 강의도 1~2개 봤는데유형 바뀌기 전에 강의들이라...현재 수강하고 있는 강의 위주로 복습하는게 맞겠죠!? 바쁘신데 공부법 질문만 올려서 죄송합니다 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1모의문제1 - 문제3 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요문제3의 변환 과정에서 아래와 같이 코드를 짜도 문제 없는건가요? 결과값은 동일합니다. df['f3'] = df['f3'].fillna(0) df['f3'] = df['f3'].replace('silver', 1).replace('gold', 2).replace('vip', 3)그리고 pandas에서 sum을 1번처럼 작성하는걸 더 권장한다고 들었는데 어떤 차이가 있는 건가요?1. print(df['f3'].sum())2. print(sum(df['f3']))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
stratify 설정 질문
선생님 강의 잘 듣고 있습니다. 다름이 아니라 예전에 혼자 공부할 때 데이터 분할을 할 때 stratify를 설정해서 데이터 불균형을 처리한다고 들었는데, 제가 놓친 것일 수도 있지만 선생님 강의에서는 따로 이에 관한 설명을 본 적이 없어서 질문드립니다. 2유형을 푸는 데에 있어서 stratify는 굳이 설정을 안 해도 문제가 없을까요? 아니면 시험 볼 때 설정을 해놓는 게 더 좋을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 2번 의사결정나무 오류
강사님 요거 왜 오류걸리는걸까요, 어제 문제 1번까지 듣고 오늘 다시 강의들어서 그런걸까 싶어서 이전 셀 실행까지 해보고 오탈자 검수도 계속하는데, 다음 단계로 넘어가지않아요ㅠㅠ원래 이렇게 어렵나용.. 비전공자라 그럴 수 있다고 생각되지만 너무 어렵네요..ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
너무 간단한건데 이해가 안됩니다 ㅠㅠ 정말 간단합니다.. 정규화
일단 이 문제는 캐글에서 선생님께서 생성해주신 문제구요.T1-9 수치형 변수 표준화 문제입니다. from sklearn.preprocessing import StandardScaler scaler = StandardScaler() df['f5']=scaler.fit_transform(df[['f5']]) df.head()요렇게 해야 한다고 했는데요 저는 세번째 줄을df['f5'] = scaler.fit_transform(df['f5'])로 했는데 오류가 나서 잘 보니까, transform 뒤에 df[['f5']] 로 답이 작성되어 있더라고요여기는 왜 []를 두번씩 감싸는 건가요????
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1모의문제1 - 문제2 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요문제2의 세번째 조건이 "컬럼의 'gold' 값을 가진 데이터 수를 출력하세요!"라고 나와 있습니다.강의에서는 아래 코드와 같이 sum으로 풀이해주셨는데 , sum 대신 len으로 작성해도 동일한 결과가 나옵니다.sum이나 len 어떤 걸 사용해도 상관없는 건지 궁금합니다. 데이터 수이기 때문에 len이 더 정확한 답일까요?print(sum(df[df['f3'] == 'gold']))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 모의문제 풀어보기(1-2)
컬럼별 행별 합산할때 axis=1을 썼는데 axis =0은 행방향, axis=1은 열방향으로 알고 있었는데 제가 잘못알고 있는걸까요?#위가 맞다면 행별 합산이니 axis =0으로 해야하는거 아닌가 해서 어떤 차이가 있나 궁금해 문의 드려요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
향후공부법 ㅠㅠㅠ
선생님...강의 들으면서 따라 치고는 있는데점점 뒤로갈수록 설명이 짧고 다 알고 있다는 전제하에 툭툭 넘어가시는건지 모르는것도 많고 ㅠ 이런 방법 저런 방법 알려주시려고 하다보니 제 머리속에서 엉키는데... 남은 강의 들으면서 어떻게 준비해야할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중회귀
안녕하세요 😊3유형을 잡고자 놀이터 문제 다 풀이하고 추가적으로 문제집 풀이 시작했는데다중 선형 회귀랑 다중 회귀 모형이 다른 거 일까요?? 문제집에 있는 거 풀이하다가 답이 달라서 한번 강사 님께서 올려주신 문제로 문제집에 있는 풀이 방법이랑 강사 님께서 해주신 풀이 방법으로 각각 해보니 서로 다른 답이 나오네요.. sm.OLS랑 formula.api.ols 차이를 알고 싶습니다!#데이터 import pandas as pd df = pd.DataFrame({ '매출액': [300, 320, 250, 360, 315, 328, 310, 335, 326, 280, 290, 300, 315, 328, 310, 335, 300, 400, 500, 600], '광고비': [70, 75, 30, 80, 72, 77, 70, 82, 70, 80, 68, 90, 72, 77, 70, 82, 40, 20, 75, 80], '플랫폼': [15, 16, 14, 20, 19, 17, 16, 19, 15, 20, 14, 5, 16, 17, 16, 14, 30, 40, 10, 50], '투자':[100, 0, 200, 0, 10, 0, 5, 0, 20, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] }) df.head(3) # 풀이 1 from statsmodels.formula.api import ols model1 = ols('매출액 ~ 광고비 + 플랫폼', data=df).fit() print(model1.summary()) #풀이2(문제집) import statsmodels.api as sm X=df[['광고비','플랫폼']] y=df[['매출액']] model2 = sm.OLS(y,X).fit() print(model2.summary())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
카이제곱통계량 독립성 검정, 적합성 검정 문의입니다.
카이제곱통계량 독립성 검정 시, crosstab을 이용해 표를 만들어 chi2_contingency 이용해 값을 구하고적합성 검정 시, 리스트를 만들어 관찰값, 예측값을 chisquare을 이용해 값을 구한다 이렇게 이해하면 될가요?