묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 예시문제 구버전
작업형3 예시문제 구버전에서지금 문제론궈무가설이 치료 후 효과있다아닌지요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회기출 유형 작업형 2번 질문있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요, 선생님 강의와 동일하게 전처리 및인코딩 후 결과값을 출력했는데 강의와 제 답의 pred[:,1] 값이 차이가 나는데 , roc_auc_score 값은0.72 정도로 잘 나옵니다. 말씀하신것처럼평가는 제출된 csv로 한다고 했을떄 확률값이다른건 자연스러운 현상일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 라벨 인코딩 질문입니다!
이전에 강의하실 때 라벨 인코딩 없이 먼저 예측값을 보고 이후에 라벨 인코딩을 진행했었는데 오브젝트들이 있으면 라벨 인코딩을 처음부터 진행하는게 모델 성능에 확실히 좋은건가요?아니면 선생님처럼 인코딩 없이 진행 후 다시 인코딩을 진행하는게 비교하기 더 좋은가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형 변수
A를 drop하게 되면 A에 대한 회귀계수는 해당 과정에서 얻지 못하는 건가요?혹시 A에 대한 회귀계수가 얻고싶을땐 다른 것을 drop해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 작업형1
마지막 3번에서 풀이방식중에df['연도'] = df['날짜'].str[:4] 이건 어떻게 하겠다는 뜻인가용?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
dir 로 ols 찾는 법
시험 환경에서 dir로 ols 찾는 법이 궁금합니다.이것저것 다 해보왔는데, 시험환경에서 statsmodels 하위로 진행이 안되네요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경에서!
# 데이터 파일 읽기 예제import pandas as pdtrain = pd.read_csv("train.csv")test = pd.read_csv("test.csv")선생님!이건 외울필요없이 무조건 주어지는거죠?그럼 바로 train.head()해서 데이터 확인하면 되는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 / 작업형1 / 문제3 / groupby할때 12로 나누는 이유
월 중간중간 빼먹은 월이 있으면 12로 나누어야 하는게 아니라 연도별로 groupby할때 count도 구해서 count로 나누어야 하는거 아닌가요? 똑같은 데이터인 거 같은데 답이 달라서 여쭤봅니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀 분류
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요시험장에서 회귀 분류 구별하는 법이 무엇이 있나요? 조금 헷갈리네요rmse mse 요런거로 평가하라하면 회귀f1, recall, precision 이런거는 분류로 생각하면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
lightgbm과 labelencoder, one_hot에 대해서 질문이 있습니다!
모든 시험장의 시험환경에서 lightgbm 사용이 가능할까요?? 혹시 버전에 따라서 사용이 불가능한 곳이 있지 않을까 걱정되어 질문합니다! 인코딩 작업을 할 때 모든 범주형 컬럼을 labelencoder 하거나 아니면 one_hot을 하는게 좋을까요..? 아니면 선생님께서 알려주신대로 종류가 10개 이하인 컬름은 one_hot을 하고 10개 이상인 컬럼은 label작업을 하는게 좋을까요..? 머리가 너무 복잡하여 하나의 방법으로 정해서 시험치러 가고 싶은데 어떤걸 선택해야할지 고민입니다.. 여기에 대해 답변해주시면 감사하겠습니다..!
-
미해결실리콘밸리 엔지니어와 함께하는 Apache Airflow
airflow tasks test 질문드립니다!
안녕하세요 선생님! 🙂provider 강의에서 airflow tasks test 질문드립니다.airflow docker-compose와 postgres docker-compose를 up 한 후에 (airflow, postgres 정상적으로 구동됨)airflow tasks test postgres_loader execute_sql_query 2023-01-01터미널에서 실행시 zsh: command not found: airflow 에러가 발생합니다.실습환경은 강의와 동일하게 docker compose로 구축하였고로컬환경에는 airflow를 설치하지 않은 상태입니다.로컬환경에 airflow를 설치해야하나요..? ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 기출3회 문제3번 질문입니다
안녕하세요! 기출 3회 작업형1 - 문제3번아래와 같이 작성했고 'f1'이라는 값을 얻었습니다. 이 풀이도 가능한건지 궁금합니다! 그리고 제출방식이 변경돼서 값만 적으면 되는데,df.isnull().sum() 으로 확인만하고 답 작성을 해도 감점이 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
wilcoxon 검정에 대한 질문입니다!
이전 단일 표본 검정에서 정규성 검증을 진행할 때 willcoxon 코드를 알려주실 때stats.wilcoxon(df[’무게‘]-120, alternative=’less’)와 같이 알려주셨는데 이번 대응표본 검정에서 정규성 검증을 진행할 때 willcoxon는 stats.wilcoxon(df[‘after’] ,df[‘before’], alternative = ‘greater’)와 같이 알려주셨습니다.또한 강의에서도 after와 before의 값을 빼서 넣은 값인 df['diff']를 그대로 사용해도 된다고 말씀하셨습니다.그래서 아래 사진과 같이 임의로 df[‘after’] - df[‘before’]를 넣어서 실행해봤는데 결과값이 똑같이 나왔습니다. 그럼 단일 표본 검정에서 알려주신대로 df[’무게‘]-120와 같이 df[‘after’] - df[‘before’]로 생각하고 넣어줘도 무방한 것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
minmax
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요from sklearn.preprocessing import MinMaxScaler cls = train.select_dtypes(exclude='O') min = MinMaxScaler() train[cls] = min.fit_transform(train[cls]) test[cls] = min.transform(test[cls])ValueError: Boolean array expected for the condition, not int64 어디가 틀렸을까요...?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
슬라이싱 질문드립니다.
#9개 print(len(df[:9])) #10개 print(len(df.loc[:9])) #9개 print(len(df.iloc[:9])) ㅠㅠㅠㅠㅠㅠㅠ 셋 구분하기가 너무 어렵습니다 시험이 다가오니 사소한 것도 확인받아야 마음이 놓일 것 같습니다 ㅠㅠ 매번 감사합니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T2-1 타이타닉 데이터 관련 문제질의
T2-1. 타이타닉(Titanic) Simple Baseline | Kaggle위 문제에서 풀이를 하던 중에 범주형 데이터 인코딩 중에 에러가 계속 발생하여 확인했더니최초 풀이과정에 수치형 데이터(int)를 레이블인코딩 하신 부분을 발견했습니다.통상 과정에서 범주형 데이터를 인코딩하는 것을 접하다보니 궁금증이 생겼습니다.(1) 수치형 데이터를 레이블인코딩 해도 큰 문제가 없는지, 이 때 주의해야 할 부분이 있는지 궁금합니다.(2) 위 데이터에서 범주형 데이터를 레이블인코딩 했을 때 발생하는 에러가 어떤 이유인지 궁금합니다.ValueError: y contains previously unseen labels: 'SOTON/O.Q. 3101311'
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 환경 체험 예시 문제 score가 너무 낮습니다
시험 환경 체험할 때 모의문제 2번에서 환불금액 결측치 채우고 object 컬럼들 label encoding 마친 후 randomforest와 xgbclassifier 이용해서 train test split하고 모델학습하고 roc auc score를 확인해봤는데 하이퍼파라미터 튜닝을 이것저것 해봐도 최대로 나오는 값이 0.688 정도 입니다.이 정도면 시험에서 문제 없는 score인가요?하이퍼파라미터 튜닝 안 하면 60 초반 정도로 밖에 안 나와서요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 질문있습니다.
기출 6 작업형 2import pandas as pdtrain = pd.read_csv("energy_train.csv")test = pd.read_csv("energy_test.csv")# train.shape,test.shape# print(train.head())# print(test.head())# print(train.isnull().sum())# print(test.isnull().sum())target = train.pop('Heat_Load')# print(train.describe(include='object'))train = pd.get_dummies(train)test = pd.get_dummies(test)# train.head()from sklearn.model_selection import train_test_splitX_tr,X_val,y_tr,y_val = train_test_split(train,target,test_size=0.2,random_state=2023)from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier(random_state=2023)model.fit(X_tr,y_tr)pred = model.predict(X_val)# predfrom sklearn.metrics import f1_scoreprint(f1_score(y_val,pred,average='macro'))pred = model.predict(test)pd.DataFrame({'pred':pred}).to_csv("result.csv",index=False)pd.read_csv("result.csv") 최근 인코딩 영상을 봤는데 범주형 인코딩 과정에서 train과 test unique 값이 같은지 다 비교해본 후에 진행해야 되나요? 지금은 nunique 값이 동일하면 바로 원핫인코딩이나 라벨인코딩 사용하고 있습니다. 만약 다른 값이 들어가 있으면 인코딩 할 때 오류가 발생하나요? randomforest만 이용해서 분류일 때랑 회귀일 때 나눠서 풀고 있는데 위의 코드처럼 작성하면 문제되는 점은 없을까요?randomforest에서 분류든 회귀든 max_depth와 n_estimators를 추가해서 검증 값이 높게 나오는 정도만 하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
표준화와 로버스트 스케일링 오류
민맥스에서는 문제없이 돌아가는데 표준화와 로버스트 스케일링 에서는 TransformerMixin.fit_transform() missing 1 required positional argument: 'X' 라는 오류가 나옵니다!n_train[cols] = scaler.fit_transform(n_train[cols]) 이부분에서 에러가 나는 거 같은데 어떤 문제일까요? copy() 부분은 계속 실행하고 돌리고 있습니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T1-19 질문
if 다음에 return이 없는 이유를 알 수 있을까요..?왜 맨밑에만 return이 있나요 ㅠㅠ?