묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션13. 작업형2에서 데이터 합치기
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요.만일, 아래와 같이 라벨인코딩과 원핫인코딩을 수행했다면,,데이터 다시 합치기를 할 필요가 없는 것이지요?이유는, 분리하지 않고 범주형/수치형 data만 취해서 인코딩을 진행했기 때문에,,,,이게 맞을까요? # 라벨인코딩 cols = ['Employment Type','GraduateOrNot', 'FrequentFlyer', 'EverTravelledAbroad'] from sklearn.preprocessing import LabelEncoder for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) # 원핫인코딩 cols2 = ['Age','AnnualIncome', 'FamilyMembers', 'ChronicDiseases'] train[cols2] = pd.get_dummies(train[cols2]) test[cols2] = pd.get_dummies(test[cols2])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분류 회귀 모델 검증데이터 질문입니다!
분류 모델과 회귀 모델이 각각 어느정도 데이터 예측 값이 나와야 만족하고 제출할 수 있을까요? 최소한의 기준이라도 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작3 회귀분석 범주형데이터처리
이경우 회귀분석에 범주형 데이터가 있는데 from statsmodels.formula.api import ols model = ols('매출액 ~ 광고비 + C(유형)', data=df).fit() print(model.summary()) 이렇게 써도 된다구 하셨죠??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼 파라미터 관련 질문드립니다.
랜덤포레스트로 2유형 준비중인데요! 강의에서 설명해주신 max_depth 와 n_estimators 두개를 사용하면서 문제를 풀어보니 변동폭이 10 정도 안팎으로 났던것 같습니다. 만약에 하이퍼 파라미터까지 썻는데도 랜덤포레스트로 돌렸는데 성능평가 결과가 50% 미만이면 어떤 방식으로 해결해야할까요...?? 다른 것을 사용해야 하나요? 아니면 어쩔수 없을까요...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
print 에서 자꾸 에러가 나요..
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이있었는지 검색해보세요안녕하세요. 타이타닉 데이터로 로지스틱 회귀를 해보고있는데... print 문에서 자꾸 에러가 나요...왜..그런걸까요?;;
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출-2유형 macro-f1 score 관련
안녕하세요. 4회 기출문제의 macro f1-score 관련하여 질문드립니다.문제 풀이에서는 교차검증으로 macro f1-score를 구하는 것으로 나왔는데요from sklearn.model_selection import cross_val_scorescores = cross_val_score(rf, train, target, scoring='f1_macro', cv=5) 1) 이 과정이 기존의 model_selection, train_test_split -> 평가 스코어 확인대신에 하는 과정이라고 이해하면 될까요?그리고 macro- f1 score라고 하면 위처럼 train test split을 생략하고 cross_val_socre 코드를 사용하며 되는것인지 궁금합니다. 검색해도 잘 나오지 않더라고요;; 아래 macro f1이라고 하면 아래 2)번 설명이 많이 나옵니다^^;; 2) 그렇다면 기존에 이진분류에서 알려주신 아래 코드는 macro -f1 score가 아니라 그냥 f1 score가 나오는 것인가요? 이 방법을 사용하면 문제 의도에서는 틀린것인지 궁금합니다.(※ 이 질문을 올리고 계속 공부하다보니 6회 기출에서도 f1-macro를 사용하라고 나오는데, 6회 풀이에서는 아래와같이 코딩하셨더라구요. 4회와 6회의 차이점이 무엇인지도 궁금합니다. ) from sklearn.metrics import f1_scoreprint(f1_score(y_val,pred, average='macro') 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라벨 인코딩 관련 질문입니다!
test데이터에 있는 변수가 train에 없을 경우 데이터를 합쳐야한다고 말씀해주셨습니다.test데이에 있는 변수가 train에 있는지 없는지를 확인할 수 있는 코드는 뭐가 있을까요?print(train['칼럼'].value_counts())print(test['칼럼'].value_counts()) 이 두개로 비교하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신버전)
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 train.describe()를 찍어봤을 때, 총구매액과 최대구매액의 최솟값이 음수로 나오던데 이 부분은 전처리 하지 않아도 큰 문제는 없을까요? 음수인 값을 0으로만 바꿔줬더니 0.67로 성능이 조금 더 좋아지긴 하더라고요..! 그냥 원본데이터 그대로 제출하는 것이 좋을지, 이 부분도 음수인 값들만 처리해준 다음에 성능만 높아진다면 처리하는 게 좋을지 궁금합니다.좋은 수업 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
dir 사용 문의
좋은 강의 감사드립니다. dir로 목록 찾을때 python문제인지 아니면 원래 출력이 가변적으로 되는지 모르겠습니다. Base 코드from statsmodels import statsprint(dir(stats))초기에는 anova, multicomp이 보이지 않습니다. 1. 실행 후 제거from statsmodels.stats import anovafrom statsmodels.stats import multicomp 0번 코드 실행 -> 1번 코드 실행(실행 후 지우기)-> 0번 코드 실행 이렇게 하면 print(dir(stats)) 실행 시 초기에 출력이 안되던 anova, multicomp가 보이는데 왜 그런지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
일원분산분석 scipy 와 ols
선생님 ols로 보여주실 때는 일렬 표로 재구조화 해주셨는데 재구조화 없이 scipy로 하는 것은 어려운지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-3 type1 9번 문제
subscribed 컬럼을 str[6:7] month로 분리 해서 계산 했는데 다른 값이 나와요 .df['month'] = df['subscribed'].str[6:7] df = df.groupby('month').count() print(df.sort_values('subscribed').index[0]) 잘 분리 되는 거 까지 봤는데 왜 계산 할 때 달라질까요 ? 날짜 데이터가 아니라 그룹바이 할 때 부터 계산이 달라 질까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-3 type1 7번 문제
r1 = sum(df.loc[2001] > df.loc[2001].mean()) r2 = sum(df.loc[2003] < df.loc[2003].mean()) 이렇게 푸셨는데. ---------------------------------------------- df = df.T # print(df.head()) # print (sum(df[2001] > df[2001].mean())) # print (sum(df[2003] < df[2003].mean())) print(sum(df[2001] > df[2001].mean()) + sum(df[2003] < df[2003].mean())) 요렇게 풀어도 되죠 ? 그리고 다 공부 했었는데 다시 보니 헷갈려서 그런데 loc 나 iloc 는 행단위로 계산이 되나요 ? 그럼 역으로 열단위로 iloc, loc는 계산 해야 할 때 (axis=1) 로 해줘야 하는 걸까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
과대적합에 대해 궁금합니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요사람들의 실기 후기를 보면 과대적합을 많이 걱정하고 또 과대적합으로 많이 떨어졌던데 검증 수치들을 0.8 ~ 0..9정도로 맞추면 과대적합을 피할 수 있나요? 아니라면 피하는 방법 알려주세요ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2유형에 대해서 질문드립니다!
시험보기전 작업형 2유형을 잘 풀고있는지 의문이 들어 이렇게 문의드립니다..!틀린부분이 없는지 한번 확인해주시면 감사하겠습니다!train과 test의 범주형컬럼의 고윳값 개수가 다를 때는 concat을 한 다음 라벨, 원핫인코딩을 해야한다는 최근 강의를 들었습니다. 그래서 아래와 같이 코드를 진행하였습니다.(2개의 범주형 컬럼의 고윳값이 10개 이상이어서 원핫은 하지 않았습니다.)train과 test의 범주형 컬럼의 고윳값 개수가 같을때도 concat을 사용하여 진행한 뒤 다시 train과 test로 데이터를 나누어 진행해도 괜찮은지 궁금합니다!최종적으로는 어떠한 문제가 나와도 concat을 사용하여 label과 one_hot을 진행해도 되는지 궁금합니다!늦은시간 죄송합니다ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
여러가지 질문
sum을 사용할때 sum(값) 혹은 .sum( ) 이런식으로 두가지로 사용되던데 두가지의 차이가 있나요?sum 에서 어떤 경우에는 합을, 어떤 경우에는 개수를 셀때 사용하던데 각각 어떤 경우에 보통 사용되는지 혹시 예시 코드를 알려주실수 있을까요? 원핫인코딩을 할 때 object 값만 넣는게 아니라 보통 전체 데이터셋을 넣어주나요? 만약에 object 값만 넣었을때랑 전체 데이터셋을 넣었을 때랑 차이가 있을까요?관찰값과 기대값을 구분하는 법을 잘 모르겠습니다..! 관찰값과 기대값의 리스트 순서를 동일하게 맞추기 위해서 sort를 진행하는 건가요?만약에 관찰값과 기대값의 순서가 다를 경우 결과에 크게 영향을 미칠까요?문제를 보고 어떤부분을 봐야 적합도 검정인지 어떻게 알 수 있을까요? 문제를 보았을 때 정확히 무엇을 묻는(어떤 방식으로 풀어야하는지) 문제인지 구분하기가 힘든 것 같습니다.. 적합도 검정뿐만 아니라 회귀분석/분산분석/ 독립성 검정 문제에서 정확히 어떤 부분을 보고 회귀 분석이다! 아니면 독립성 검정이다! 를 알 수 있을까요? 개념이 정확히 정리가 안된 것 같은데 .. 문제를 보고 구분하는 방법을 알려주시면 감사하겠습니다.. ㅜㅠgroupby(~~).mean() 형태로 많이 쓰이던데 mean 말고 다른 것도 사용할 수 있는지, mean 밖에 안되는지 궁금합니다. 다른 것도 사용할 수 있으면 어떤게 있는지 알려주세요! 질문이 너무 많네요..!! 답변 부탁드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회기출 유형 작업형 2번 질문있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 아래 코드에서y_test 는 0,1,0 등의 값이고pred 는 proba 확률값인데 저렇게 평가점수를내는것도 가능한가요?y_test = pd.read_csv("y_test.csv") y_test roc_auc_score(y_test, pred)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회기출 유형 작업형 2번 질문있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요age 칼럼의경우 20대 30대 40대 이렇게 나누는 이유가있을까요?또 그렇게 범주형으로 나누려면 어떻게 코드를작성해야할지 궁금합니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[], [[]] 차이
df = df.groupby(['city', 'f4'])['f5'].mean()df = df.groupby(['city', 'f4'])[['f5']].mean() 위 코드와 아래 코드에 [], [[]]의 차이가 있는데 둘다 실행은 되지만 그 차이를 알고 싶습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션5. 문제1
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요아래 코드 실행시, RandomForestRegressor' object has no attribute 'predict_proba'에러가 발생하는데, 원인이 무엇인지궁금합니다. # data 불러오기import pandas as pdtrain = pd.read_csv('train.csv')test = pd.read_csv('test.csv')y_test = pd.read_csv('y_test.csv')# EDAtrain.shape# 전처리#test.isnull().sum() # 피처엔지니어링cols = train.select_dtypes(include = 'O').columns#train = train.drop(cols, axis = 1)#test = test.drop(cols, axis = 1)# 라벨 인코딩from sklearn.preprocessing import LabelEncoderfor col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])train = train.drop('CLIENTNUM', axis = 1)test_id = test.pop('CLIENTNUM')# 검증데이터 분리from sklearn.model_selection import train_test_splitx_tr,x_val, y_tr, y_val = train_test_split(train.drop('Attrition_Flag', axis = 1), train['Attrition_Flag'], test_size = 0.2, random_state= 2022) # 모델, 평가from sklearn.ensemble import RandomForestRegressorrd = RandomForestRegressor()rd.fit(x_tr, y_tr)pred = rd.predict(x_val) # 예측, 제출pred = rd.predict_proba(test)submit = pd.DataFrame({ 'CLIENTNUM' : test_id, 'Attrition_Flag' : pred[:, 1]})submit.to_csv('0000.csv', index = False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
반올림 조건
작업형3에서 반올림round 함수를쓸즐몰라서 코드는반올림없이 결과를 출력하고 정답기입은 눈으로 맞게했다면 채점은 어떻게 되나요