질문 & 답변 - 인프런 | 커뮤니티

질문 게시판

고민있어요

스터디

팀 프로젝트

멘토링

멘토링 후기

수강평

With us

인프런 피드

블로그

인프런 소개

공지사항

대시보드

강의

홈

로드맵

더보기

묻고 답해요

141만명의 커뮤니티!! 함께 토론해봐요.

인프런 TOP Writers

해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

개수가 불일치 합니다

안녕하세요. 작업형 2 한가지 방법으로 풀기의 내용으로예시문제 작업형 2를 푸는데 개수가 맞지 않아서 질문 드립니다..ValueError: X has 73 features, but DecisionTreeClassifier is expecting 74 features as input.import pandas as pd train = pd.read_csv("data/customer_train.csv") test = pd.read_csv("data/customer_test.csv") # 사용자 코딩 # print(train.shape, test.shape) # print(train.head(1), test.head(1)) # print(train['성별'].value_counts()) # print(train.isnull().sum(), test.isnull().sum()) train['환불금액'] = train['환불금액'].fillna(0) test['환불금액'] = test['환불금액'].fillna(0) target = train.pop('성별') print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) print(train.shape, test.shape) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0) print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(X_tr, y_tr) pred = rf.predict_proba(X_val) from sklearn.metrics import roc_auc_score roc_auc = roc_auc_score(y_val, pred[:,1]) print('\n roc_auc:', roc_auc) pred = rf.predict_proba(test) print(pred[:3]) submit = pd.DataFrame({'pred':pred[:,1]}) submit.to_csv("result.csv", index=False)

이태경 · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

173

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

기출 4회

섹션 13 기출 4회 풀이때는 train ,test데이터의 id값을 drop 해주셨는데 한가지 방법으로 풀이 때는 원핫인코딩을 해주셔서 drop을 안해주신건가요?

hj2930hj · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

98

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

마지막 제출시 학습을 다시 안해도 되는지 궁금합니다

검증 데이터 분할을 해서 일반적으로 모델에 rf.fit(X_tr_y_tr)을 진행하고 예측하다가 마지막에 바로 pred =rf.predict(test)로 테스트 데이터를 집어 넣는데요, rf.fit(train,target) 으로 다시 학습하고 집어 넣지 않아도 상관이 없나요 ? 두개가 굳이 차이가 없기떄문에 분할로 생성된 모델을 넣는건지 이유가 있는건지 궁금합니다

xxx0rud · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

112

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

drop, pop ,, 알려주세요

train = train.drop('CLIENTNUM', axis=1) test_id = test.pop('CLIENTNUM') 왜 이전 회차에는 drop을 통해 빼줬는데,,, 왜 이후에는 pop만 해주나요??

lovelove567 · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

222

답변

5
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

답안 작성시 수기로 작성해도 되나요?

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 영상 잘 보고 있습니다.다름이 아니라 ols나 logit 후 summary로 나왔을 때, 답을 이걸 적으면 된다. 라고 하시면서 그냥 숫자를 적어주시던데.그래도 되나요?예) summary 값으로 p_value값이 가장 높은것은? 나왔을때, 따로 model.pvalues.max() 이런방식으로 맥스값을 불러오는게 아니라, 그냥 보고 아 이게 가장 크다 해서 큰 값을 손으로 적어도 되나요? model이후 이름?들 외우기도 힘들어서요 ㅠ 된다고 하면 그 값들은 안외워도 되니까요

limokokpk2 · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

163

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형 2

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요선생님 작업형2유형의 경우 데이터가 train,test(2개)로 주거나 X_train, X_test, y_train으로 주는 경우가 있는데 제가 이해한 방향이 맞는지 확인해주시면 감사합니다.#2개일 경우(train, test) train 데이터에서 id 분리or 드랍, 타겟값 분리 test 데이터에서 id 분리 or 드랍 train값과 타겟값으로 검증 test 값으로 학습 #3개일 경우(X_train, X_test, y_train) X_train 데이터와 y_train 값(타겟 값)으로 검증, X_test 데이터로 학습 후 제출

sangjunla6 · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

113

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

데이터 분리하기 질문

from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop('output', axis=1), train['output'], test_size=0.15, random_state=2022) 작업형 예시 문제 풀떄는 drop을 통해서, 데이터 삭제하고, 분리했는데,, 여기서는 왜 바로 train이라고 넣나요??,,그리고 test_id = test.pop으로 데이터 넣어줬는데,, 왜 안넣어요??,,,,,

lovelove567 · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

125

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형 2유형 파일 저장

작업형 2유형에서 코드 전체를 실행을 여러번 하면 파일이 저장이 여러번 되잖아요.맨 마지막 버전 1개만 저장되는게 맞을까요??파일이 여러개 생성되는지... 걱정이 돼서 문의 드립니다

조성희 · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

83

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형 2

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요선생님 만약 분류 문제가 나온다면 이러한 측정 지표를 사용해서 한 번에 봐도 괜찮을까요?

sangjunla6 · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

75

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 한가지 방법으로 풀기 질문입니다

target이 object, int, float 타입 중 어느 것이어도 원핫 인코딩 전에target = train.pop('target') 을 사용해도 되는 건가요?

aady97 · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

140

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

교차검증 cross_val_score하기 전에 rf.randomforestclassifier 지정하는 거 외 val 분리도 해야 되는 게 맞나요?

교차검증 cross_val_score하기 전에 rf.randomforestclassifier 지정하는 거 외 val 분리도 해야 되는 게 맞나요?train_test_split 하고 그다음 분류 모델 선택하고 교차검증 하고 학습하는 순서대로 꼭 가야되는 건지? 아니면 train_test_split은 생략해도 되는건지 문의드립니다.

yhr581 · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

85

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

유형2번 에러

ValueError: could not convert string to float: '기타'선생님 자꾸 fit이쪽에서 에러가 발생하는데 이유를 알 수 있을까요ㅠㅠ미치곘습니다..

한정수 · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

97

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

py3_run 오류가 납니다(코드 첨부)

안녕하세요, 이전에 테스트 데이터를 넣었을 때 오류가 난다고 했던 수강생입니다. 주구매상품과 구매지점을 넣어서 훈련시키는 건 해결했는데(이전 질문은 해결됨), 수치형 데이터로 훈련시킬 때 아래와 같은 오류메세지가 뜹니다. 농산물은 주구매상품에 있는 변수던데 수치형만 넣었는데도 불구하고 어디서 나온건지.. 이해가 안됩니다..우선 제가 입력했던 코드는 다음과 같습니다. 바쁘신 와중에 확인해주셔서 감사합니다!! import pandas as pd pd.set_option('display.max_columns',None) train = pd.read_csv("data/customer_train.csv") test = pd.read_csv("data/customer_test.csv") train['환불금액'] = train['환불금액'].fillna(0) test['환불금액'] = test['환불금액'].fillna(0) #cols=['주구매상품','주구매지점']#0.6117 cols=['회원ID','총구매액','최대구매액','환불금액','방문일수','방문당구매건수','주말방문비율','구매주기'] target=train.pop('성별') #from sklearn.preprocessing import LabelEncoder #le=LabelEncoder() #for col in cols: # train[col]=le.fit_transform(train[col]) # test[col]=le.transform(test[col]) from sklearn.model_selection import train_test_split x_tr,x_val,y_tr,y_val=train_test_split(train, target, test_size=0.2, random_state=0) from sklearn.ensemble import RandomForestClassifier model=RandomForestClassifier() model.fit(x_tr,y_tr) pred=model.predict_proba(x_val) #print(pred) from sklearn.metrics import roc_auc_score print(roc_auc_score(y_val, pred[:,1])) pred = model.predict_proba(test) submit = pd.DataFrame({ 'pred': pred[:,1] }) submit.to_csv('result.csv', index=False) print(pd.read_csv('result.csv'))

5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

107

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

6:49 print 출력부분

시험환경에서 작업형1, 3 은 따로 결과를 기입하는 부분이 있다고 알고있습니다.결과쓰는 부분에 답을 81 이라고 쓰면 될것 같은데, print() 로 써야 한다고 하는 부분이 이해가 안갑니다.결과 제출을 어떻게 해야하는지요?

crystal · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

87

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

원핫 인코딩에서 o,1이 아닌 True False가 떠요.

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요

조수민 · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

159

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

T1-12 캐글

#100%가 넘는 접종률 제거 df = df[df['ratio']<100] # print(df.head()) # print(df['country'].value_counts()) df2 = df.groupby('country').max()import pandas as pd df = pd.read_csv("../input/covid-vaccination-vs-death/covid-vaccination-vs-death_ratio.csv") # print(df.head()) df2 = df.groupby('country').max() #시간에 따라 접종률이 점점 올라감 df2 = df2.sort_values(by='ratio', ascending = False) #100%가 넘는 접종률 제거 cond = df2['ratio'] <= 100 df2 = df2[cond] top = df2['ratio'].head(10).mean() bottom = df2['ratio'].tail(10).mean() print(round(top - bottom,1))제 코드 입니다.제가 여기서 여쭤보고싶은 내용은 먼저 100%이상건을 제외하고 작업에 들어가야하지 않나용?

joy10780 · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

64

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

5회 기출유형 작업형 2 rmse질문

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 강사님. 5회 기출유형 작업형 2 베이스 모델 만드는 부분(6분 43초) 관련하여 질문드립니다.rmse 값을 구하니 강사님 값과 다르게 나옵니다(강사님: 1529, 본인: 1548) 랜덤포레스트분류 문제에서는 RandomForestClassifier() 괄호 안에 random_state를 지정해주었는데 이번 강의에서는 RandomForestRegressor() 괄호 안에 아무것도 넣지 않아서 값이 다르게 나온 것일까요? 위의 내용이 맞다면 RandomForestRegressor에도 random_state를 지정해준 후 모델 성능을 개선시켜야 하는 것인지 궁금합니다.

soyeong523 · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

96

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

sort_values

소팅에 관해서 질문 드립니다!예를 들어 f1컬럼을 내림차순으로 소팅한다고 했을 때 df=df['f1'].sort_values(ascending=False)df=df.sort_values('f1', ascending=False)위의 두가지 코드는 어떤 차이가 있는지 알 수 있을까요? 그리고 추가로 소팅 후 n개의 데이터를 선택할 때 rese_index를 하는게 좋은지 궁금합니다!

naegahaenaeem · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

77

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

반올림하여 소수3번째 자리까지 나타내시오.

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요값이 -0.049847258342167904 인데 round 써서 3번째까지 나타내려 하니 -0.050 이라 출력이 -0.05 까지밖에 안나와요 ㅜ 이럴 땐 어떻게 하나요? 그냥 print(-0.050) 해야할까요?

wanzy123 · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

62

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

주석처리 할 때

주석 처리 하려고 컨트롤 키 + / 키를 하는데 어떤 때는 주석처리가 되는 데. 또 어떤 때는 오른쪽 끝에 빨간줄이 생기 면서 주석처리가 안되고 계속 기존 입력 칸 보다 작은(?) 칸으로 / 만 입력이 되는데 어떻게 해야하나요?ㅜㅜ

dkqehs · 5개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

85

답변

1

인기 태그

주간 인기글