묻고 답해요
148만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회기출 유형 작업형 2번 질문있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요age 칼럼의경우 20대 30대 40대 이렇게 나누는 이유가있을까요?또 그렇게 범주형으로 나누려면 어떻게 코드를작성해야할지 궁금합니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[], [[]] 차이
df = df.groupby(['city', 'f4'])['f5'].mean()df = df.groupby(['city', 'f4'])[['f5']].mean() 위 코드와 아래 코드에 [], [[]]의 차이가 있는데 둘다 실행은 되지만 그 차이를 알고 싶습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션5. 문제1
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요아래 코드 실행시, RandomForestRegressor' object has no attribute 'predict_proba'에러가 발생하는데, 원인이 무엇인지궁금합니다. # data 불러오기import pandas as pdtrain = pd.read_csv('train.csv')test = pd.read_csv('test.csv')y_test = pd.read_csv('y_test.csv')# EDAtrain.shape# 전처리#test.isnull().sum() # 피처엔지니어링cols = train.select_dtypes(include = 'O').columns#train = train.drop(cols, axis = 1)#test = test.drop(cols, axis = 1)# 라벨 인코딩from sklearn.preprocessing import LabelEncoderfor col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])train = train.drop('CLIENTNUM', axis = 1)test_id = test.pop('CLIENTNUM')# 검증데이터 분리from sklearn.model_selection import train_test_splitx_tr,x_val, y_tr, y_val = train_test_split(train.drop('Attrition_Flag', axis = 1), train['Attrition_Flag'], test_size = 0.2, random_state= 2022) # 모델, 평가from sklearn.ensemble import RandomForestRegressorrd = RandomForestRegressor()rd.fit(x_tr, y_tr)pred = rd.predict(x_val) # 예측, 제출pred = rd.predict_proba(test)submit = pd.DataFrame({ 'CLIENTNUM' : test_id, 'Attrition_Flag' : pred[:, 1]})submit.to_csv('0000.csv', index = False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
반올림 조건
작업형3에서 반올림round 함수를쓸즐몰라서 코드는반올림없이 결과를 출력하고 정답기입은 눈으로 맞게했다면 채점은 어떻게 되나요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 예시문제 구버전
작업형3 예시문제 구버전에서지금 문제론궈무가설이 치료 후 효과있다아닌지요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회기출 유형 작업형 2번 질문있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요, 선생님 강의와 동일하게 전처리 및인코딩 후 결과값을 출력했는데 강의와 제 답의 pred[:,1] 값이 차이가 나는데 , roc_auc_score 값은0.72 정도로 잘 나옵니다. 말씀하신것처럼평가는 제출된 csv로 한다고 했을떄 확률값이다른건 자연스러운 현상일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 라벨 인코딩 질문입니다!
이전에 강의하실 때 라벨 인코딩 없이 먼저 예측값을 보고 이후에 라벨 인코딩을 진행했었는데 오브젝트들이 있으면 라벨 인코딩을 처음부터 진행하는게 모델 성능에 확실히 좋은건가요?아니면 선생님처럼 인코딩 없이 진행 후 다시 인코딩을 진행하는게 비교하기 더 좋은가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형 변수
A를 drop하게 되면 A에 대한 회귀계수는 해당 과정에서 얻지 못하는 건가요?혹시 A에 대한 회귀계수가 얻고싶을땐 다른 것을 drop해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 작업형1
마지막 3번에서 풀이방식중에df['연도'] = df['날짜'].str[:4] 이건 어떻게 하겠다는 뜻인가용?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
dir 로 ols 찾는 법
시험 환경에서 dir로 ols 찾는 법이 궁금합니다.이것저것 다 해보왔는데, 시험환경에서 statsmodels 하위로 진행이 안되네요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경에서!
# 데이터 파일 읽기 예제import pandas as pdtrain = pd.read_csv("train.csv")test = pd.read_csv("test.csv")선생님!이건 외울필요없이 무조건 주어지는거죠?그럼 바로 train.head()해서 데이터 확인하면 되는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 / 작업형1 / 문제3 / groupby할때 12로 나누는 이유
월 중간중간 빼먹은 월이 있으면 12로 나누어야 하는게 아니라 연도별로 groupby할때 count도 구해서 count로 나누어야 하는거 아닌가요? 똑같은 데이터인 거 같은데 답이 달라서 여쭤봅니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀 분류
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요시험장에서 회귀 분류 구별하는 법이 무엇이 있나요? 조금 헷갈리네요rmse mse 요런거로 평가하라하면 회귀f1, recall, precision 이런거는 분류로 생각하면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
lightgbm과 labelencoder, one_hot에 대해서 질문이 있습니다!
모든 시험장의 시험환경에서 lightgbm 사용이 가능할까요?? 혹시 버전에 따라서 사용이 불가능한 곳이 있지 않을까 걱정되어 질문합니다! 인코딩 작업을 할 때 모든 범주형 컬럼을 labelencoder 하거나 아니면 one_hot을 하는게 좋을까요..? 아니면 선생님께서 알려주신대로 종류가 10개 이하인 컬름은 one_hot을 하고 10개 이상인 컬럼은 label작업을 하는게 좋을까요..? 머리가 너무 복잡하여 하나의 방법으로 정해서 시험치러 가고 싶은데 어떤걸 선택해야할지 고민입니다.. 여기에 대해 답변해주시면 감사하겠습니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 기출3회 문제3번 질문입니다
안녕하세요! 기출 3회 작업형1 - 문제3번아래와 같이 작성했고 'f1'이라는 값을 얻었습니다. 이 풀이도 가능한건지 궁금합니다! 그리고 제출방식이 변경돼서 값만 적으면 되는데,df.isnull().sum() 으로 확인만하고 답 작성을 해도 감점이 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
wilcoxon 검정에 대한 질문입니다!
이전 단일 표본 검정에서 정규성 검증을 진행할 때 willcoxon 코드를 알려주실 때stats.wilcoxon(df[’무게‘]-120, alternative=’less’)와 같이 알려주셨는데 이번 대응표본 검정에서 정규성 검증을 진행할 때 willcoxon는 stats.wilcoxon(df[‘after’] ,df[‘before’], alternative = ‘greater’)와 같이 알려주셨습니다.또한 강의에서도 after와 before의 값을 빼서 넣은 값인 df['diff']를 그대로 사용해도 된다고 말씀하셨습니다.그래서 아래 사진과 같이 임의로 df[‘after’] - df[‘before’]를 넣어서 실행해봤는데 결과값이 똑같이 나왔습니다. 그럼 단일 표본 검정에서 알려주신대로 df[’무게‘]-120와 같이 df[‘after’] - df[‘before’]로 생각하고 넣어줘도 무방한 것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
minmax
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요from sklearn.preprocessing import MinMaxScaler cls = train.select_dtypes(exclude='O') min = MinMaxScaler() train[cls] = min.fit_transform(train[cls]) test[cls] = min.transform(test[cls])ValueError: Boolean array expected for the condition, not int64 어디가 틀렸을까요...?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
슬라이싱 질문드립니다.
#9개 print(len(df[:9])) #10개 print(len(df.loc[:9])) #9개 print(len(df.iloc[:9])) ㅠㅠㅠㅠㅠㅠㅠ 셋 구분하기가 너무 어렵습니다 시험이 다가오니 사소한 것도 확인받아야 마음이 놓일 것 같습니다 ㅠㅠ 매번 감사합니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T2-1 타이타닉 데이터 관련 문제질의
T2-1. 타이타닉(Titanic) Simple Baseline | Kaggle위 문제에서 풀이를 하던 중에 범주형 데이터 인코딩 중에 에러가 계속 발생하여 확인했더니최초 풀이과정에 수치형 데이터(int)를 레이블인코딩 하신 부분을 발견했습니다.통상 과정에서 범주형 데이터를 인코딩하는 것을 접하다보니 궁금증이 생겼습니다.(1) 수치형 데이터를 레이블인코딩 해도 큰 문제가 없는지, 이 때 주의해야 할 부분이 있는지 궁금합니다.(2) 위 데이터에서 범주형 데이터를 레이블인코딩 했을 때 발생하는 에러가 어떤 이유인지 궁금합니다.ValueError: y contains previously unseen labels: 'SOTON/O.Q. 3101311'
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 환경 체험 예시 문제 score가 너무 낮습니다
시험 환경 체험할 때 모의문제 2번에서 환불금액 결측치 채우고 object 컬럼들 label encoding 마친 후 randomforest와 xgbclassifier 이용해서 train test split하고 모델학습하고 roc auc score를 확인해봤는데 하이퍼파라미터 튜닝을 이것저것 해봐도 최대로 나오는 값이 0.688 정도 입니다.이 정도면 시험에서 문제 없는 score인가요?하이퍼파라미터 튜닝 안 하면 60 초반 정도로 밖에 안 나와서요.