묻고 답해요
143만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분류 문제에서 평가할 때 classification report로 진행할 경우 문제가 있을까요?
classification report로 하면 여러 지표를 한눈에 볼 수 있으니각각의 코드를 안외워도 되는 이점이 있는 것 같습니다. 문제에서 f1 classification report 불러와서 봐도 되겠지요..?from sklearn.metrics import classification_report report =classification_report(y_val, pred_rf) print(report)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼 파라미터 문의
랜덤포레스트에서 하이퍼 파라미터 할때,learning_rate 하면 오류나던데,랜덤포레스트에서는 적용이 안되나요?max_depth랑 n_estimators로만 파라미터 수정하면되나요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
f1 스코어 시 에러 문의
# f1 스코어 from sklearn.metrics import f1_score print(f1_score(y_val, pred)) ValueError: Target is multiclass but average='binary'. Please choose another average setting, one of [None, 'micro', 'macro', 'weighted']. 영상에서는 바로 출력되던데, 이것은 무슨 오류인가요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2에서 인코딩과 스케일링
작업형 2에서데이터 스케일링(min_max, standard scaler)는 안하시는 것 같은데 혹시 이유가 있을까요? 보통 분석 흐름에는 데이터 표준화를 하는 경우가 많은 것 같아서 여쭤봅니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
독립표본 ttest_ind 검정
독립표본 ttest_ind 검정에서 ttest_ind(A, B)를 쓸때 A에 오는 것을 어떤것으로 해야 하나요? 예) 오렌지주스를 투여받은 기니피그 치아길이 평균이 아스코르브산을 투여받은 기니피그 치아길이 평균과 일치하는 지 구해라
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 / 라벨인코딩
object형 처리 시 어떤 때에 원핫인코딩하는게 좋고 라벨인코딩하는게 좋고 하는 기준이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형 반올림 명시 없으면
소수점 몇 번째 자리든 다 작성하면 되나요?그 이전에 문제에서 반올림 명시를 하겠죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 삭제
X_test, X_train, y_train 데이터일때결측치 채울때는 X_test, X_train 모두 채우고결측치나 이상치 삭제시에는 X_train, y_train만 삭제하고 X_test는 삭제하면 안되는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
MSE 구하는법
안녕하세요. 회귀분석 모델의 MSE 구하는 방법에 대해 문의드립니다.ols 모델 학습하고 난 후, model.mse_resid 메서드로 MSE 구하는 방식이 있더라구요. 근데 선생님이 정석적으로 풀이해주신 방법의 답과 차이가 있어서 문의드립니다. 자유도 처리나 계산 방법에 따라 차이가 있는 것으로 추정되는데, 이럴 경우 어떤 방식을 활용하는 것이 더 나을지 궁급합니다.혹은 똑같은 방법으로 답을 구할 수 있는 메서드가 있는지도 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 7회 3유형 1-2 문제
이과정,, from statsmodels.formula.api import logit 으로 진행하면 안되나요??
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
XGBoost 시험장 사용 가능 여부 관련!!
안녕하세요, 드디어 내일이 시험이네요,그동안 너무 감사했습니다! 다름이 아니라 작업형 2유형에서 모델을 XGBoost를 이용하려고 하는데요! 체험환경에서 미리 사용을 해봤을때 경고가 자꾸 표시됩니다. 경고 여부와 관계없이 XGBoost를 사용해서 제출해도 이슈가 없을것 같다고 생각되긴 합니다만, 혹시 몰라 선생님께 확인차 여쭤보고 싶습니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
간단한 데이터프레임을 새로 생성할 때
pd.DataFrame 독스를 보니 너무 여러 방법이 있어서 헷갈려서 질문드립니다...따로 추천하시는 방법이 있나요? 수업에서 본 대로 인덱스명이 key고, 리스트가 value인 딕셔너리를 넣는 법을 가장 추천하시나요?중괄호를 쓰다가 유독 오타가 자주 나네요 @_@ 특히 간단한 적합성 검정같은 거에서 줄글로 정보만 띡 내놓는 상황이 가장 두렵습니다. observed data는 컬럼 하나짜리인 Case별 프레임이고 expected frequency는 왜 달랑 딕셔너리 하나랍니까이거 최종적으로 stats.quisquare에 어떤 방식으로 들어가는건지는 둘다 관찰값과 기대분포에다가 실험크기를 곱한 리스트같지만 이건 데이터 전처리를 어떻게 해야 할지...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형 질문드립니다.
시험환경 예시문제를 보면 '독립성 검정을 실시했을 때 카이제곱 통계량은 ?'과 같이, 7회, 8회 문제에도 카이제곱인지, 로지스틱 회귀모형 등, 어떤 방법을 사용하라고 나왔었나요 ?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pd.get_dummies 할때 df를 통으로 넣어야 한다고 하셨는데
"train = pd.get_dummies(train) 로 사용해 주세요 train = pd.get_dummies(train[cols]) 를 사용하면 train에 기존에 있던 수치형은 삭제되고 없습니다."라는 무서운 답변을 방금 발견해서 아 맞다 세상에 하고 질문드리는데요 X_traintest_concat = pd.get_dummies(X_traintest_concat, columns=['fuelType'])같이 하면 fuelType 컬럼만 원핫되고 다른 애들은 남아있는 거 맞죠? ㅠㅠㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[기출2회 작업형2] 분류문제 (주어진 데이터 3개)
기출 2회 작업형2 문제가 로지스틱 회귀로 분류문제라 랜포를 이용해서 풀이를 하려고 하는데요. 주어진 데이터가 3개라서 concat을 이용해서 X_train과 y_train을 train으로 합쳐서 하려고 하는데 잘 안됩니다ㅜtrain = pd.concat([X_train, y_train['Reached.on.Time_Y.N']], axis=1) train.head(1)이 코드에서 'Reached.on.Time_Y.N' 이 컬럼만 없고 나머지는 있어서 얘만 합쳐주는 건가요? # 데이터 불러오기 import pandas as pd test = pd.read_csv("X_test.csv") X_train = pd.read_csv("X_train.csv") y_train = pd.read_csv("y_train.csv") #주어진 데이터 3개라서 2개로 만들기(train합치기) train = pd.concat([X_train, y_train['Reached.on.Time_Y.N']], axis=1) train.head(1) # 3. 탐색적 데이터 분석(EDA) print(train.shape) #1490 print(test.shape) #497 print(train.info()) print(test.info()) print(train.head(3)) print(test.head(3)) print(train.isnull().sum()) print(test.isnull().sum()) print(train['Reached.on.Time_Y.N'].value_counts()) # 4. 데이터 전처리 print(train.info()) # 오브젝트형 있네?->인코딩하자 # print(train.shape, test.shape) train=pd.get_dummies(train) test=pd.get_dummies(test) # print(train.shape, test.shape) # print(train.info()) train = train.drop('ID', axis=1) test_id = test.pop('ID') test.head() # 5. 검증용 데이터 분할 *XXYY로* from sklearn.model_selection import train_test_split target = train.pop('Reached.on.Time_Y.N') X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=7) print(X_tr.shape, y_tr.shape, X_val.shape, y_val.shape) # 6. 검증 데이터 머신러닝 학습 및 평가 - 호출, 학습, 예측 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=7) rf.fit(X_tr,y_tr) pred = rf.predict_proba(X_val) from sklearn.metrics import roc_auc_score roc_auc = roc_auc_score(y_val, pred[:,1]) print('roc_auc:',roc_auc) # 7. 예측 및 결과 파일 생성 pred=rf.predict_proba(test) print(pred[:10]) submit = pd.DataFrame({ 'ID': test_id, 'Reached.on.Time_Y.N': pred[:,1] }) submit.to_csv('result.csv',index=False) # 제출파일 확인 pd.read_csv('result.csv') pd.read_csv('result.csv').shape꿀팁 영상 보고 주어진 데이터가 3개일 경우를 정리해본건데 코드가 많이 길지만 결과 나올 수 있게 코드 손 봐주시면 감사하겠습니다TT
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출8회 3유형 1-2 번 문제 변수 5만틈 증가
np.exp(coef* 5) 라고 작성하셨는데,5만큼 증가는 +5 아닌가요?? *5 는 곱하기 5 아닌가용?,,, *= + 라는 뜻인가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train, test 범주형 컬럼의 고유값이 같은지 확인하는 코딩은 없나요
19개 종류를 다 비교 하기 쉽지 않습니다.그리고 만약 train에 없는 고유값이 test에서 있으면 데이터를 합친다고 했는데, 범주형을 합쳐서 인코딩 한 다음에 다시 분리 할때는 loc, iloc 사용하나요? 그래서 처음 shape의 데이터 크기로 똑같이 맞춰야 하는거죠?예를 들면 train.shape (6118,10) test.shape (1724,9) 라면 처음에 concat를 통해 6118+1724 로 해서 범주형 인코딩 하고 다시 원래 대로 크기를 쪼개야 하는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
max 사용법
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요가장 큰 값을 정수로 반올림하여 출력할 때, 이 2개 모두 사용해도 상관 없을까요?print(round(max(result))) print(round(result.max()))
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델 학습 문의
랜덤포레스트 딱 하나만 공부하고 시험 쳐도 괜찮을까요?여러 모델 학습법을 비교해서 우수 성능을 채택하는 것이 아니라서 결과적으로는 작업형2 만점을 못받을 수 잇을거 같긴한데,내일이 시험이라 합격선만 딱 목표여서 그렇습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
탐색적 데이터 분석에서 뭘 캐치해야하는지 모르겠어요
EDA를 할때 무엇을 알아내서 전처리를 해야하는지 너무 헷갈려요결측치가 있는지 없는지 보고, 칼럼 갯수확인하고, 트레인과 테스트셋의 카테고리 수 비교 ? 이런것만하면될까요 ㅠㅠ.. 아직 EDA에서 전처리로 연결하는 감을 못잡겠어요..(큰일났어요...)