질문 & 답변 - 인프런 | 커뮤니티

질문 게시판

고민있어요

스터디

팀 프로젝트

멘토링

멘토링 후기

수강평

With us

인프런 피드

블로그

인프런 소개

공지사항

대시보드

강의

홈

로드맵

더보기

묻고 답해요

148만명의 커뮤니티!! 함께 토론해봐요.

인프런 TOP Writers

해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

dir/__all__ 활용관련

안녕하세요. dir 이나 __all관련해서,,,print(sklearn.__all__) 은 알겠는데요. 그 다음,,, from sklearn.ensemble import RandomForestClassifier 여기서,, randaomforestclassifier 이게 생각이 나지 않을때 이걸 찾을 수 있는 방법은 없는지요?

kccjjang · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

88

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

상황별 가설검정 문의

안녕하세요,작업형3을 공부하던 중 궁금한 점이 생겨 문의드립니다. 어떤 상황에서 T검정, 카이제곱 검정, 회귀분석, 분산분석(ANOVA)를 수행하는건지명확히 분류가 잘 안 되는데 위와 같이 T검정, 카이제곱 검정, 회귀분석, 분산분석 중어떤 것을 수행할지는 문제에서 주어지는 사항일까요? 감사합니다!

juhyun991002 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

28

답변

2
미해결
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

test파일 예측에서 자꾸 에러가 발생합니다.

train = pd.read_csv('/kaggle/input/working8-2/churn_train.csv')test = pd.read_csv('/kaggle/input/working8-2/churn_test.csv')target = train.pop('TotalCharges')train = pd.get_dummies(train)test = pd.get_dummies(test)from sklearn.model_selection import train_test_splitX_tr,X_val,y_tr,y_val = train_test_split(train, target, test_size=0.2, random_state=2022)from sklearn.metrics import mean_absolute_errorfrom sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor(random_state=2022, max_depth=7, n_estimators=600)rf.fit(X_tr,y_tr)pred = rf.predict(X_val)answer = rf.predict(test)rf.predict(X_val)까지는 잘 예측이 되어,866.4986350062683의 값을 얻었습니다.그리하여 마지막으로 본 test파일을 예측하여 제출하려고 하는데, 계속해서 오류가 발생하네요 ㅠㅠㅠ아래는 에러 코드입니다.ValueError Traceback (most recent call last) Cell In[97], line 14 12 rf.fit(X_tr,y_tr) 13 pred = rf.predict(X_val) ---> 14 answer = rf.predict(test) File /opt/conda/lib/python3.10/site-packages/sklearn/ensemble/_forest.py:981, in ForestRegressor.predict(self, X) 979 check_is_fitted(self) 980 # Check data --> 981 X = self._validate_X_predict(X) 983 # Assign chunk of trees to jobs 984 n_jobs, _, _ = _partition_estimators(self.n_estimators, self.n_jobs) File /opt/conda/lib/python3.10/site-packages/sklearn/ensemble/_forest.py:602, in BaseForest._validate_X_predict(self, X) 599 """ 600 Validate X whenever one tries to predict, apply, predict_proba.""" 601 check_is_fitted(self) --> 602 X = self._validate_data(X, dtype=DTYPE, accept_sparse="csr", reset=False) 603 if issparse(X) and (X.indices.dtype != np.intc or X.indptr.dtype != np.intc): 604 raise ValueError("No support for np.int64 index based sparse matrices") File /opt/conda/lib/python3.10/site-packages/sklearn/base.py:548, in BaseEstimator._validate_data(self, X, y, reset, validate_separately, **check_params) 483 def _validate_data( 484 self, 485 X="no_validation", (...) 489 **check_params, 490 ): 491 """Validate input data and set or check the `n_features_in_` attribute. 492 493 Parameters (...) 546 validated. 547 """ --> 548 self._check_feature_names(X, reset=reset) 550 if y is None and self._get_tags()["requires_y"]: 551 raise ValueError( 552 f"This {self.__class__.__name__} estimator " 553 "requires y to be passed, but the target y is None." 554 ) File /opt/conda/lib/python3.10/site-packages/sklearn/base.py:481, in BaseEstimator._check_feature_names(self, X, reset) 476 if not missing_names and not unexpected_names: 477 message += ( 478 "Feature names must be in the same order as they were in fit.\n" 479 ) --> 481 raise ValueError(message) ValueError: The feature names should match those that were passed during fit. Feature names unseen at fit time: - customerID_CUST0001 - customerID_CUST0002 - customerID_CUST0006 - customerID_CUST0007 - customerID_CUST0008 - ... Feature names seen at fit time, yet now missing: - customerID_CUST0000 - customerID_CUST0003 - customerID_CUST0004 - customerID_CUST0005 - customerID_CUST0009 - ...

ehddls91 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

91

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

4번 질문드립니다.

문제 4번 질문드립니다.cols = df.select_dtypes(exclude='object').columns df = df[cols]왜 이건되고cond1 = df.select_dtypes(include='object').columnsdf= df[~cond1]왜이건 안되나요?

김호범 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

41

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형1 모의문제 3번

>>views 컬럼에 결측치가 있는 데이터(행)을 삭제하고, f3 컬럼의 결측치는 0, silver는 1, gold는 2, vip는 3 으로 변환한 후 총 합을 정수형으로 출력하시오<<이 문제를 풀이할 때, 강사님이 말씀해주신 것처럼 문제를 풀었는데답 밑에 이런 문구들이 표기됩니다.133 <ipython-input-34-9be3d2c84afd>:11: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)` df['f3'] = df['f3'].replace('silver',1).replace('gold',2).replace('vip',3)이렇게 표기되어도 정답 인정은 되는 것인지 궁금합니다.

권다빈 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

60

답변

2
미해결
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

종속,독립의 구분

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요! 열심히 한강의씩 듣고있는 수강생입니다.항상 너무 자세히 설명도 너무 잘 해주셔서 감사합니다.일원분산분석 수강중 melt를 진행하고 이렇게 나온것까지는 이해가 됐습니다! 혹시 분산분석테이블에서 ols를 할 때 종속, 독립을 넣어야하는데 어떻게 구분해야할지가 문득 궁금해져서 질문을 남기게 되었습니다..! 보통은 맨 우측에있는 부분을 종속변수로 알면 될까요?

루루 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

48

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

파이썬기초2 문자열변경 - 여러단어 변경 관련 문의

#text= text.replace("파이썬", "머신러닝").replace("분석기사", "분석을 위한") 에서여러단어 변경 시 유의사항으로 앞에서 부터 실행돼서 파이썬부터 머신러닝으로 바꿔야 한다고 말씀하셨는데 앞에서 부터 실행되면 분석기사부터 바꿔야되는 거 아닌가요?왜냐면 text = 빅데이터 분석기사 파이썬 공부 순이라서.앞에서 부터 실행된다는게 분석기사부터 바뀌는게 아닌가 하는 생각이 들어서 여쭤봅니다. #text= text.replace("분석기사", "분석을 위한").replace("파이썬", "머신러닝") 으로 바꿔서 실행해보니'빅데이터 분석을 위한 머신러닝 공부' 라는 값이 도출됩니다.

zizizi207 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

31

답변

2
미해결
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

기출8회 작업형2 원핫인코딩으로 하면 자꾸 오류가 나요 ㅠ

어디가 문제일까요? ㅠㅠ 라벨인코딩이 너무 어렵게 느껴져서 원핫인코딩만 외웠는데 적용이 힘드네요 도와주세요~~

망고 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

106

답변

3
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

일주일전 준비 시작분들위한 정리자료

각 작업형 끝에 캐글 문제 풀이 적혀있는데 이건 어디서 푸는걸까요? 궁금합니다.

momgrp24 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

77

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

rf = RandomForestClassifier(random_state=0)

rf = RandomForestClassifier(random_state=0) 여기서 random_state를 꼭 해줘야 하나요? 이제까지는 안했던거 같아서요.

김치현 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

64

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

회사 PC로 구글드라이브 접속이 안되어서...

혹시 학습용 CSV 파일을 메일로 받아볼수 있을까요?

유기원 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

64

답변

2
미해결
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

원핫 인코딩 concat

학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# print(train.shape,test.shape) #2482# print(train.info(),test.info())# print(train.isnull().sum()) # 결측값 존재함# print(test.isnull().sum()) # 결측값 존재함# 전처리train = train.fillna(0)test =test.fillna(0)# print(train.isnull().sum())# print(test.isnull().sum())target = train.pop('성별')df= pd.concat([train,test])df = pd.get_dummies(df)train = df.iloc[:len(train)]test = df.iloc[len(train):]print(train.shape,test.shape)# 모델 분리 및 검증 from sklearn.model_selection import train_test_splitX_tr,X_val,y_tr,y_val = train_test_split(train,target,test_size=0.2,random_state=22)# print(X_tr.shape,X_val.shape,y_tr.shape,y_val.shape)# 모델 학습 from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(random_state=22)rf.fit(X_tr,y_tr)pred = rf.predict_proba(X_val)# 결과 pred = rf.predict_proba(test)submit = pd.DataFrame({'pred':pred[:,1]})submit.to_csv('result.csv',index=False)print(pd.read_csv('result.csv').head())print(pd.read_csv('result.csv').shape) #2482 이 식으로 풀어도 될까요??

이진혁 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

100

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

스케일링 관련

안녕하세요 선생님작업형 2유형에서 스케일링, 로그변환 등을 꼭 해야하는걸까요?말씀하신 기본 베이스라인으로만 머신러닝 진행하고 제출 시에 문제 되는 부분이있을까해서요.

김치현 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

95

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

원핫 인코딩

pd.get_dummies(train, columns = cols) pd.get_dummies(train[cols]) 이 둘의 차이는 단순하게 원핫 인코딩 한것만 보여주는지 전부 다 보여주는지의 차이 같은데요, 아래 걸로 해도 상관 없나요..?

김치현 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

94

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

pred_proba[:,1] 오류

from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(random_state = 0, max_depth = 3, n_estimators = 200) model.fit(X_tr, y_tr) pred_proba = model.predict_proba(X_val) from sklearn.metrics import roc_auc_score print(pred_proba) print(roc_auc_score(y_val, pred_proba[:, 1]))안녕하세요,모델학습 후 검증하려고 하니 print(roc_auc_score(y_val, pred_proba[:, 1]))에서 아래와 같은 오류가 발생합니다.list indices must be integers or slices, not tuple 혹시 pred_proba의 형태에 문제가 있어서 그러나 출력해봤더니 아래처럼 array가 2개가 뜨는데 원래 출력되던 값이랑 다른 것 같기도 한데 어떤 부분이 잘못된걸까요..?[array([[6.17771951e-04, 3.90720727e-04, 5.61044129e-04, ..., 1.88014875e-05, 2.71602426e-05, 9.26113606e-05], [4.72241735e-04, 7.55194719e-04, 3.70085375e-04, ..., 7.58005053e-06, 2.24283166e-05, 3.95537961e-05], [2.06135825e-05, 1.04454196e-05, 1.96540881e-06, ..., 2.93436306e-05, 1.84382330e-05, 6.98070487e-05], ..., [2.26718012e-05, 2.39307053e-05, 1.96540881e-06, ..., 3.02043842e-05, 1.54553261e-05, 6.62548451e-05], [1.51536674e-05, 2.15648698e-05, 2.06815630e-06, ..., 4.15875993e-05, 3.06270026e-05, 3.26545900e-05], [2.84102759e-05, 1.47138847e-05, 6.29396294e-06, ..., 3.17093190e-05, 1.71020727e-05, 4.92247989e-05]]), array([[0.05156594, 0.94843406], [0.0402204 , 0.9597796 ], [0.54197093, 0.45802907], ..., [0.53420482, 0.46579518], [0.5344612 , 0.4655388 ], [0.53436829, 0.46563171]])] @ 위 문제를 기존에는 y_train의 'ID' 값을 drop하지 않았다가, y_train의 'ID' 값을 drop하니해결되었는데 그것과 관련이 있는 것일까요?그리고, 'ID'값을 제거하려고 할 때에는 X_train, y_train, X_test 세 데이터 프레임 모두의 'ID'값을 반드시 제거해야 하는 것인가요?

juhyun991002 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

56

답변

1
미해결
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

검증 데이터 분리 시 문의

검증 데이터 분리 시,X_tr ~ = train_test_split( train.drop('output', axis=1) 에서전단계에서 데이터 전처리 할 때, 이미 train에서 output 드랍하고 train에 저장했는데 (train = train.drop('output')) 검증 데이터 분리 작성 시 다시 drop 해주는 이유가 있나요?X_tr ~ = train_test_split( train) 이렇게 바로 하면 안되나요?

wsyang · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

52

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

라벨인코딩

안녕하세요!명목형 자료의 인코딩 시 Test 데이터에만 있는 Unique 값이 있을 수 있어 데이터를 합치고 인코딩 한 후에 다시 분리하는 것으로 이해하였습니다.예시에 사용된 원핫인코딩의 pd.get_dummies와 달리 라벨인코딩의 경우 사이킷런의 인코더를 이용하는데, 이에 따라 fit_transform, transform으로 나누어 진행하는 것 같습니다.질문은! 라벨인코딩의 경우에 Train, Test 데이터를 합쳐서 인코딩 할 때 fit_transform을 사용하면 될까요?

이승욱 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

78

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

결측치 처리에서 명목형, 수치형 자료의 처리 방식 차이

안녕하세요!결측치 처리 시에 아래와 같이 수치형 컬럼의 경우 Train 데이터의 평균, 중앙값을 Test 데이터 결측치 처리에 사용한 반면,명목형 컬럼의 경우 Test 데이터 결측치 처리 시에 Test 데이터의 최빈값을 이용한 이유가 궁금합니다!통상적으로 이렇게 진행되는 것인지, 아니면 해당 데이터셋의 경우 Train 데이터와 Test 데이터의 최빈값이 동일해서 단순히 이렇게 처리된 것인지 궁금합니다!# X_train데이터 X_train['workclass'] = X_train['workclass'].fillna(X_train['workclass'].mode()[0]) X_train['native.country'] = X_train['native.country'].fillna(X_train['native.country'].mode()[0]) X_train['occupation'] = X_train['occupation'].fillna("X") X_train['age'] = X_train['age'].fillna(int(X_train['age'].mean())) X_train['hours.per.week'] = X_train['hours.per.week'].fillna(X_train['hours.per.week'].median()) # X_test데이터 X_test['workclass'] = X_test['workclass'].fillna(X_test['workclass'].mode()[0]) X_test['native.country'] = X_test['native.country'].fillna(X_test['native.country'].mode()[0]) X_test['occupation'] = X_test['occupation'].fillna("X") X_test['age'] = X_test['age'].fillna(int(X_train['age'].mean())) X_test['hours.per.week'] = X_test['hours.per.week'].fillna(X_train['hours.per.week'].median())

이승욱 · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

94

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

8회 기출 작업형 1 1번문제 질문드립니다.

조건대륙('continent')별 맥주 소비량(‘beer_servings’)의 평균을 계산하고, 평균이 가장 큰 대륙을 찾으시오.1번에서 찾은 대륙에서 맥주 소비량이 5번째로 많은 국가(‘country’)의 맥주 소비량을 구하시오. 이 문제를 풀 때 정답과는 조금 다르게 풀었는데 단순히 답만 나오면 상관 없나요 ? 선생님이 풀이해주신 걸 보면, 별도의 변수를 만들어 대입 후 비교를 하셨는데, 저같은 경우는 데이터프레임에 바로 대입을 하고,1번 조건이 Europe인 것을 확인 후 주석처리를 했습니다. # df = df.groupby('continent').mean('beer_servings') # df = df.sort_values('beer_servings',ascending = 0) # 평균 가장 큰 대륙 : Europe cond = df['continent'] == 'Europe' df = df.sort_values('beer_servings', ascending = 0) print(df.iloc[4, 1])이후 조건 변수에 대입 후 313 답을 도출했는데, 이렇게 풀면 틀릴까요 ?

rokkk · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

74

답변

1
미해결
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

모델 주석 처리

영상에서 다양하게 모델 평가 하셨는데, 제일 잘 나온 모델, 예를들어 LinearRegression 이라 하면,이것 제외한 나머지 평가 코딩들을 주석처리로 하고,csv 제출하면 되는건가요?영상에서는 별도 주석처리를 안해준 것 같아서요

wsyang · 3개월 전 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

56

답변

2

인기 태그

주간 인기글