묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형모의문제2 문제5
import pandas as pd df=pd.read_csv("members.csv") q3=df.quantile(.75) q1=df.quantile(.25) IQR=q3-q1 lower=q1-1.5*IQR upper=q3+1.5*IQR cond1=df['views']<lower cond2=df['views']>upper print(sum(cond1|cond2)) Can only compare identically-labeled Series objects 이런에러가 떠서요조건으로 설정한후에 문제푸는방법은 안되는건가요?아니면 sum을 각각 지정안하고 한꺼번에 묶은것도 문제인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
비모수검정
A or B집단이 정규분포를 따르지 않을 경우, 비모수 검정인가요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일링 질문드립니다.
n_train = train.select_dtypes(exclude='object').copy()n_test = train.select_dtypes(exclude='object').copy()보통 민맥스 스케일링 할 때 위처럼 오브젝트와 아닌 것들을 나눈 뒤에 아래 처럼 스케일링을 진행하잖아요. 근데 밑에서 cols 변수에 수치형 데이터만 명시를 하는데굳이 나눠서 하는 이유가 뭔가요??그냥 train[cols] 로 해도 전혀 문제 없는 거 아닌가요? cols = ['컬럼명', '컬럼명', '컬럼명']from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()n_train[cols] = scaler.fit_trainsform(n_train[cols])n_test[cols] = scaler.trainsform(n_test[cols])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문이요!
질문)roc-auc 는 predict_proba로f1, 정밀도, 정확도, 실현율은 predict로답안을 제출하는것으로 알고있는데,네가지 전부 다 평가를 한다고 하면 어떤 값을 기준으로 제출해야할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험때 사용가능여부
선생님이 test_id=test.pop('id') 이런식으로 코딩자주 하셨었는데 그 전에 강의에서 들을때는 주의사항에 채점문제때문에 test데이터는 임의로 삭제하면 안된다고 하셨잖아요 test_id=test.pop('id') 이거는 실제 시험장에서 써도 되는건가요? 갑자기 헷갈려서요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 모의문제2번
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 선생님 문득 공부하가 궁금하여 질문드립니다. 인코딩은 ( 범주형 삭제처리 하고 수치만 쓰기, 원핫인코딩, 라베벨 인코딩) 요 3개중에 제일 평가 좋은것으로 골라서 쓰고 있는데 수치형 스케일링의 경우 (민맥, 로버스트, 스탠다드) 3가지를 함께 적용시켜도되나요? 아니면 1개만 선택하는게 맞을까요~? 감사합니다!!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
stratify = Y 쓰는 경우는 분류일 때 필수인가요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 분류모델을 할 때, train_test_split(~~, stratify = Y)를 쓰는 경우가 있던데 실제 시험에서 stratify = Y를 쓰는 걸 추천하시는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 질문
작업형 2유형의 경우, 랜덤 포레스트 모델을 사용하기 전에범주형 (object, category...)에 해당하는 데이터에 원핫인코딩을 적용하는 것으로 알고 있습니다.일부 강의에서는 select_dtypes로 해당하는 데이터들을 찾아서 그 부분들만 원핫인코딩을 한 것으로 알고 있는데, 기출에서는 그냥 train이나 test 데이터 통째로 get_dummies 사용하신 것 보고 궁금증이 남아 문의 드립니다. 굳이 범주형, 수치형 구분하지 않고 get_dummies 에 적용해도 될까요?두 번째 질문으로는,, 작업형 2유형 문제에서 가령 roc_auc_score 를 평가 지표로 삼아라 ~ 따위의 문제가 나오는데 이때 roc말고 f1_score같은 분류 문제에서 사용되는 다른 평가지표를 사용하게 된다면 감점의 요인으로 작용할까요?두 가지 질문 드리고 싶습니다. 양질의 강의 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로지스틱 회귀분석
1.강의가 많아서 로지스틱 회귀분석 부분을 못 찾겠습니다어느 부분을 봐야할까요? 2작업형3 예시 문제 해설에서 로지스틱 회귀분석이 '분류'모델이라고 하셨는데회귀분석에 분류와는 어떻게 다른지 궁금합니다.. 3갑자기 C로 변수를 묶는것도 이해가 안되는데 언제 묶는건지 궁금합니다... 분산분석에서만 C로 묶는것인지, 로지스틱에서도 쓰는건지요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가 방법
문제에서 f1, roc auc 등 다양한 방법으로 평가를 하게 하는데, 평가가 틀리거나ㅡ다른 방법으로 평가를 진행하더라도 불이익이ㅡ없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델 평가할 때 pos_label 사용 방법 질문입니다.
질문 : f1_score 혹은 recall_score 때, pos_label을 두 가지로 사용할 수 있고, 이렇게 사용하는 것 맞죠? 1번 방법 : 타겟값을 미리 0,1로 변경y_train = (y == '>50K').astype(int) f1_score(y_val, pred, pos_label = 1) 2번 방법 : 타겟값을 모델 평가할 때 pos_label로 0,1로 변경f1_score(y_val, pred, pos_label = '>50K') 시험이 다가오니 사소한 것도 확인 받아야 마음이 편하네요. 매번 감사합니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모델학습
피쳐엔지니어링에서가장 베이직한 방법이범주형 데이터 - > 인코딩 진행 후 평가 하는 방법이 맞을까요 모델을 학습하는 여러가지 방법을 정리해보려고 하는데 맞는지 확인부탁드립니다 ㅠ ㅠ데이터 : 범주형+수치형 데이터범주형 인코딩 -> 모델학습 (범주형만 학습 )-> 평가 범주형 인코딩 -> 모델학습 (범주형+수치형 학습) - > 평가수치형 스케일링 -> 모델학습 (수치형 )-> 평가범주형 인코딩 + 수치형 스케일링 -> 모델학습 (범주형+수치형 학습)-> 평가보통 1이랑 2중에 2을 일반적으로 많이 사용하나요?그리고 다른 모델은 테스트 안해보고 랜덤포레스트만 사용하고 제출하게 되면 점수에 영향이 많이 미칠까요..?보통 어떤 모델 사용하면 좋을지 추천 부탁드립니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델에 대한 평가가 끝나면 그대로 두나요?
질문 : roc_auc_score, f1_score, r2_score 등 모델에 대한 평가가 끝나면 제출하기 전에 주석처리하나요? 모델에 대한 평가가 끝나면 중요한 건 test제출인 것 같은데, 시험 제출하기 전 모두 주석 처리해야하나요? 시험이 다가오니 사소한 것도 확인받고 싶네요 ㅠㅠ 매번 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 모의문제 1
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형 2 모의 문제 1번에서 범주형 라벨링(삭제 /원핫/ 라벨링) 을 하면서 모델 성능을 비교했는데, 수치형 스케일링( 민맥스., 로버스트, 스탠다드) 는 따로 진행하지 않으신 이유가 있을까요~? 시험에서는 수치형 스케일링도 적용 하면서 함께 비교하는게 좋을까요? 그렇게되면 인코딩 x 스케일링경우의수가 9개가 되어 모두 비교하는게 좋은지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
lightGBM관련 질문입니다!
라벨인코딩해도 상관이 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
답안 작성법
유형 2의 경우 csv파일을 만들어서 오른쪽 위의 제출 유형1,3은 따로 페이지를 넘어가서 답안 작성하는것이 맞나요?강의에서는 이런식으로 마지막 값이 출력되는 코드까지 작성해주시는데 print(int(df.loc[7, '교사수'])) 1717이라는값이 눈에 보이면 풀이코드를 적지않고 답안에 값만 적어도 정답으로 인정되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 질문입니다!
시험에서 LGB만 사용할 생각이면... 평가지표(f1, rmse 등..)를 굳이 돌리지 않고 제출해도 문제가 없을까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 ,2
작업형2번에서 분류인지 회귀인지는 정확히 어떻게 구분하나요?원핫 인코딩 할 때 아래 1~4까지 다 가능한 식일까요? c_train = pd.get_dummies(c_train[cols]) ---1c_train[cols] = pd.get_dummies(c_train[cols]) ---2c_train = pd.get_dummies(c_train) ----3c_train[cols] = pd.get_dummies(c_train) ----4<=50K -> 0,>50K -> 1 을 예측하는 문제에서 y = (y_train['income'] == '>50K').astype(int) 이거말고 원핫 인코딩이나 라벨인코딩을 할 수 있나요?회귀 rmse 에서 np.exp() 해주는 이유가 뭔가요?roc_auc 평가지표 일때는 분류문제에서만 가능한가요?roc_auc 말고 확률을 구하는 평가지표는 없는걸까요? 결측치를 제거할 때, x_train,y_train,x_test 데이터 셋이 있을 경우y_train에 대해서는 이상치, 결측치가 존재 하지 않는거죠? 그리고 y_train에는 피쳐엔지니어링은 진행안하는거죠? y_train은 정답 데이터기때문에 이상치나 결측치가 존재하지 않고 아무런 처리를 하지 않는다고 보면 될까요? 원핫인코딩을 할 때 전체 데이터 셋에 대해서 넣게 되면 pd.get_dummies(c_train) y_train 값은 뺀 뒤에 원핫인코딩을 진행해야 되는 건가요? x_train, x_test 에 대해서만 결측치, 이상치, 피쳐엔지니어링을 진행 한다고 보면 될까요?x_train,x_test 에 대해서 결측치가 존재할 때, 행 삭제를 하면 안되니까 절대 dropna를 사용하면 안된다고 생각하면 될까요? 대신 컬럼 삭제는 가능하지만, x_test의 target 컬럼만 제외하고 컬럼 삭제가 가능하다고 생각하면 되나요? (컬럼삭제를 잘 사용하지 않긴하지만 혹시나 궁금해서 여쭤봅니다 )
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다른문제
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업 3유형 다른 기출을 풀어보고 있는데 선회회귀 문제에서 import statsmodels.formula.api as ols model = ols('weight ~ age + Cholesterol', data=df).fit() model.summary하였더니 TypeError: 'module' object is not callable 이런 오류가 나왔는데 어떤건지 알 수 있나요...?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀분석 및 분산분석 범주형 변수 처리 문의
회귀분석의 경우 ols 함수 사용시 자동으로 원핫 인코딩을 하기에 범주형변수를 C처리를 안해줍니다.하지만 분산분석은 ols 사용시 독립변수가 범주형 변수이면 C처리를 해줘야하는데 이렇게 구분해서 사용하면 되는건가요? 같은 ols함수인데 회귀분석이냐 분산분석이냐에 따라 사용법이 조금 달라 헷갈려서 확인차 문의드립니다. 추가로, 시험환경예시 작업형 유형3 에서는 회귀분석에서 Logit 모형을 사용하는데 범주형 변수를 C처리 했는데 그냥 모두 범주형 변수는 C처리 해주는게 나을까요..?ㅠ