묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작2 전처리 과정 질문
작업형 2 전처리작업 하실때 결측값이 범주형+수치형 섞여있는 경우에는 수치형만 결측값을 처리하고 범주형은 데이터가 많은 경우 그냥 버리시던데 결측값이 없는 데이터도 버리시더라고요 eda진행했을때 데이터가 너무 많은 것은 버리면성능이 좋아지나요? 루틴을 만드려고 하는데 결측값이 범주형+수치형 있는경우 범주형은 드랍 ,수치형은 0으로 대체 결측치가 있는건 아니지만 범주형 데이터 중 데이터수가 많은 경우도 드랍 결측치도 없고 데이터수가 많지 않은 범주형 데이터는 라벨인코딩으로 수치형으로변환 이렇게 하면 괜찮을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3을 할 때 언제 formula를 정의해야 하나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요예시문제 작업형3(신 버전) 2번, 6회 기출유형(작업형3) Q2-1을 보면서, formula 값을 언제 지정해야하는지 궁금하여 질문드립니다. <예시문제 작업형3(신 버전) 2번>Gender, SibSp, Parch, Fare를 독립변수로 사용하여 로지스틱 회귀모형을 실시하였을 때, Parch 변수의 계수값은? (반올림하여 소수 셋째 자리까지 계산) #2. print(df[['Gender', 'SibSp', 'Parch', 'Fare']].head(3)) from statsmodels.formula.api import logit model = logit("Survived ~ C(Gender) + SibSp + Parch + Fare", data=df).fit() print(model.summary()) print(round(-0.2007,3)) # -0.201여기에는 formula를 따로 정의하지 않았고, <6회 기출유형(작업형3) Q2-1>다중 선형 회귀 모델을 구축하고, 독립변수 o3의 회귀계수를 구하시오.독립변수: solar(태양 에너지), wind(바람의 세기), o3(오존 농도)종속변수: temperature(온도) from statsmodels.formula.api import ols formula = "temperature ~ solar + wind + o3" model = ols(formula, data=df).fit() print(model.summary()) # 0.0749 model.params['o3'] 여기에서는 formula를 정의하였습니다. ㅠㅠ 둘이 뭔 차이길래 그런지 잘 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2
rmse평가 작성할때 강사님과 다르게 이렇게 적었는데가능한가요?(문제에서 rmse로 평가하시오 라고 되어있을때밑에처럼 적으면 rmse로 평가가 가능한거죠..?) from sklearn.ensemble import RandomForestRegressor model=RandomForestRegressor() model.fit(X_tr,y_tr) pred=model.predict(X_val)from sklearn.metrics import mean_squared_error mse=mean_squared_error(y_val,pred) rmse=mse**0.5
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오류
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 X_train.corr() 실행시 ValueError: could not convert string to float: 'State-gov' 오류 뜹니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출 유형(작업형2)에서 데이터 전처리 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요6회 기출 유형 작업형2에서 왜 target값은 원핫인코딩을 하지 않은 것인가요?즉,# target컬럼 처리 target = train.pop('Heat_Load') # 원핫 인코딩(판다스) print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) print(train.shape, test.shape) 제 생각엔, 제출 형식이 숫자가 아니라, 'very low' 이런 형식이라서 타겟값은 데이터 전처리를 하지 않은 것인가요? pred Very Low Low High ... Very High
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 기출 등과 해서 계속 반복해서 연습하던 중에요
기출에서는 랜덤포레스트에서는 (random_state=2022) 이렇게 random_state 값을 주는데 이번에 올라온 예시문제 신 버전 문제에서는 랜덤포레스트에서 (random_state=0) 값이 없더라구요. 이유가 있을까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경에서 제출버튼 클릭 한번만? 무제한?
안녕하세요. 제가 알고 있기로는 시험시간 3시간동안 작업형1과 작업형3은 무제한으로 제출 버튼을 누를 수 있다고 알고 있습니다. 제가 알고 있는게 맞는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회기출 1번 문항의 2번 오류 문의 입니다.
위 이미지와 같은 문구가 나오는데 요건 어떤 의미인지 문의드릴 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5-2 강의자료에서 마지막 줄에 y_test로 평가할 때 r2 score가 마이너스가 나올수 있나요?
에이비앤비 가격 관련 문제 강의자료에서예측값 pred와 강사님께서 올려주신 y_test로 r2_score를 계산했을 때 값이 마이너스가 나왔습니다. 이 값이 맞게 나온 결과인가요? 아니면 제가 실수를 한 것인가요? 전체적으로 다시 코드를 실행했는데도 같은 결과가 나와 질문드립니다. y_test = pd.read_csv("y_test.csv") print(r2_score(y_test, pred))-0.03400982959617549
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pd.get_dummies(train[cols])와 (train, columns=cols) 차이가 궁금합니다.
원핫 인코딩 코드에서 괄호 안에 [cols]를 쓸 때와 columns=cols를 쓸 때의 차이가 궁금합니다.3-4 Feature engineering에서와 3-6 Regression에서 작성법이 달라서요. 3-6 Regression에서는 train[cols]로 썼더니 에러가 나네요ㅠ# 3-4 Feature engineering c_train[col] = le.fit_transform(c_train[col]) c_test[col] = le.transform(c_test[col]) # 3-6 Regression train = pd.get_dummies(train, columns=cols) test = pd.get_dummies(test, columns=cols)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9분 42초에 pred_proba
9분 42초 쯤print(roc_auc_score(y_val, pred_proba[:,1])))pred_proba 다음에[:,1]을 붙이는 이유는 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
휘트니 검정
Levene 검정의 귀무가설은 분산이 동일하다 라고 하셨는데요 반대로 만휘트니유 검정은 귀무가설이 분산이 다르다인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
grouby().mean()오류
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 df.groupby('원두').mean() 실행시 TypeError: agg function failed [how->mean,dtype->object] 이 오류는 어떻게 해결하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
의사결정나무로 할 때 에러코드가 뜨는데 이유를 모르겠어요ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2, 내장함수 질문
선생님 안녕하세요! 시험이 다가오면서 헷갈리거나 저번에도 살짝 아리쏭했던 부분이 복습하면서 이해못한 부분이 명확해지면서 질문들이 많아졌는데 항상 자세히 알려주셔서 감사합니다 ㅠㅠㅎㅎ 오늘도 질문드립니다!! 1. X_train데이터와 y_train데이터가 나누어져서 제공받았을 때 이를 합쳐야 하는 경우가 무엇인가요? 그리고 만약 합친 경우 나중에 꼭 분리를 해야하나요? 2. 작업형 2를 진행할 때 결측치가 있을 시 행은 삭제하면 안되고, 컬럼은 train, test데이터 각각에 모두 삭제는 가능한 것 맞을까요? 3. count() 함수는 axis=0일 때 컬럼을 기준으로 세는 것이 맞나요? 원래라면 axis=0이 행을 기준으로 하는 것으로 알고있는데 count()는 반대인듯 해서요! 4. 데이터 피처 엔지니어링을 진행할 때 스케일링 시 X_train[cols]는 데이터 프레임 형태로 진행되는 것 맞을까요? 그렇다면 라벨인코딩에서는 for문을 사용하여 X_train[col]로 진행하는데 그러면 데이터 프레임이 아닌 시리즈 형태인것 아닌가요?? 이 부분이 헷갈려서 여쭤봅니다! 5. 만약 작업형 2에서 범주형 데이터가 1~2개만 있다면 수치형 데이터로만 모델을 평가도 해보고 범주형을 인코딩해서 다함께 평가 두가지를 모두 해보는게 좋을까요, 아니면 범주형 데이터가 있다면 인코딩을 했을 때를 무조건 해보는 것이 좋을까요? 6. describe에서 이상치가 눈에 보인다면 행을 삭제 못하는데 어떻게 해야하나요? 아예 그 컬럼을 삭제하는게 나을까요? 7. random_state값을 달리하면 평가지표도 다르게 나오던데 아무숫자나 고정해서 쓰면될까요? 모든 것에 random_state=0 이런식으로 고정해서요! 8. n_estimators는 max_depth를 안쓰고도 써도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 범주형 데이터 처리시
from sklearn.preprocessing import LabelEncodercols = ['Gender','Education_Level','Marital_Status','Income_Category','Card_Category'] 이렇게 하나하나 다 적는방법도 잇지만 cols=train.select_dtypes(include="O").columns이렇게도 가능하다고 하셧는데 만약 이렇게하면 다른 네임명으로 받으면서 test도 따로 해줘야하나요 cols2=test.select_dtypes(include="O").columns이렇게요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제 1
코랩으로 입력중인데 from sklearn.preprocessing import LabelEncoder cols = ['Gender','Education_Level','Marital_Status','Income_Category','Card_Category'] for col in cols: le=LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) target = train.pop('Attrition_Flag')에러가 나와요 왜그런거죠 KeyError Traceback (most recent call last)/usr/local/lib/python3.10/dist-packages/pandas/core/indexes/base.py in get_loc(self, key, method, tolerance) 3801 try:-> 3802 return self._engine.get_loc(casted_key) 3803 except KeyError as err:6 framespandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item()pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item()KeyError: 'Attrition_Flag'The above exception was the direct cause of the following exception:KeyError Traceback (most recent call last)/usr/local/lib/python3.10/dist-packages/pandas/core/indexes/base.py in get_loc(self, key, method, tolerance) 3802 return self._engine.get_loc(casted_key) 3803 except KeyError as err:-> 3804 raise KeyError(key) from err 3805 except TypeError: 3806 # If we have a listlike key, checkindexing_error will raiseKeyError: 'Attrition_Flag'
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-4 Feature engineering 데이터 전처리 질문입니다.
X_test 데이터 전처리에서 'age'와 'hours.per.week'의 fillna가 X_test가 아닌 X_train의 평균과 중앙값으로 이루어졌는데요, 아래와 같이 X_test값으로 fillna하면 안 되는 걸까요? X_test['age'] = X_test['age'].fillna(int(X_test['age'].mean())) X_test['hours.per.week'] = X_test['hours.per.week'].fillna(X_test['hours.per.week'].median()) 원본# X_test데이터 X_test['workclass'] = X_test['workclass'].fillna(X_test['workclass'].mode()[0]) X_test['native.country'] = X_test['native.country'].fillna(X_test['native.country'].mode()[0]) X_test['occupation'] = X_test['occupation'].fillna("X") X_test['age'] = X_test['age'].fillna(int(X_train['age'].mean())) X_test['hours.per.week'] = X_test['hours.per.week'].fillna(X_train['hours.per.week'].median())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 - 타이타닉 작업형2
train=pd.read_csv("/kaggle/input/titanic/train.csv")test=pd.read_csv("/kaggle/input/titanic/test.csv") #전처리 train= train.fillna(0)test= test.fillna(0) from sklearn.preprocessing import LabelEncoderle=LabelEncoder()cols = ['Name','Sex','Ticket','Cabin','Embarked']for col in cols: train[col]= le.fit_transform(train[col]) test[col]=le.transform(test[col]) 이렇게 실행했더니 --------------------------------------------------------------------------- KeyError Traceback (most recent call last) File /opt/conda/lib/python3.10/site-packages/sklearn/utils/_encode.py:224, in _encode(values, uniques, check_unknown) 223 try: --> 224 return _map_to_integer(values, uniques) 225 except KeyError as e: File /opt/conda/lib/python3.10/site-packages/sklearn/utils/_encode.py:164, in _map_to_integer(values, uniques) 163 table = _nandict({val: i for i, val in enumerate(uniques)}) --> 164 return np.array([table[v] for v in values]) File /opt/conda/lib/python3.10/site-packages/sklearn/utils/_encode.py:164, in <listcomp>(.0) 163 table = _nandict({val: i for i, val in enumerate(uniques)}) --> 164 return np.array([table[v] for v in values]) File /opt/conda/lib/python3.10/site-packages/sklearn/utils/_encode.py:158, in _nandict.__missing__(self, key) 157 return self.nan_value --> 158 raise KeyError(key) KeyError: 'Wilkes, Mrs. James (Ellen Needs)' During handling of the above exception, another exception occurred: ValueError Traceback (most recent call last) Cell In[58], line 22 20 for col in cols: 21 train[col]= le.fit_transform(train[col]) ---> 22 test[col]=le.transform(test[col]) File /opt/conda/lib/python3.10/site-packages/sklearn/utils/_set_output.py:140, in _wrap_method_output.<locals>.wrapped(self, X, *args, **kwargs) 138 @wraps(f) 139 def wrapped(self, X, *args, **kwargs): --> 140 data_to_wrap = f(self, X, *args, **kwargs) 141 if isinstance(data_to_wrap, tuple): 142 # only wrap the first output for cross decomposition 143 return ( 144 _wrap_data_with_container(method, data_to_wrap[0], X, self), 145 *data_to_wrap[1:], 146 ) File /opt/conda/lib/python3.10/site-packages/sklearn/preprocessing/_label.py:139, in LabelEncoder.transform(self, y) 136 if _num_samples(y) == 0: 137 return np.array([]) --> 139 return _encode(y, uniques=self.classes_) File /opt/conda/lib/python3.10/site-packages/sklearn/utils/_encode.py:226, in _encode(values, uniques, check_unknown) 224 return _map_to_integer(values, uniques) 225 except KeyError as e: --> 226 raise ValueError(f"y contains previously unseen labels: {str(e)}") 227 else: 228 if check_unknown: ValueError: y contains previously unseen labels: 'Wilkes, Mrs. James (Ellen Needs)'이런 에러값이 나오는데 왜그런거죠?강사님이 작성하신 풀이에는 결측치값을 놔두시고 오브젝트형인 데이터도 다 수치형으로 안바꾸시던데 왜그런거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
대응 표본 t-검정에서 정규성 검정 문의
https://www.kaggle.com/code/agileteam/t3-example/notebook 위와 같은 대응 표본 t-검정 문제에서, 정규성 검정을 진행하는 집단에 대해 궁금합니다.1) shapiro(df['bp_pre']), shapiro(df['bp_post']) 각 집단에 대해서 모두 수행해야 하는지,2) df['diff'] = df['bp_post'] - df['bp_pre'] 집단 간 차이에 대해서 정규성 검정을 수행하는지 두번째로 표본 검정 문제에서 정규성 가정을 제시하지 않았다면 모든 shapiro부터 수행해야 한다고 이해했는데, 제시해주신 풀이에는 정규성 검정을 수행하지 않고 ttest_rel로 바로 진행하셨던데,문제의 가정에 따라서 정규성 검정을 수행해야 하는것이 아닌가요?