묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3을 할 때 언제 formula를 정의해야 하나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요예시문제 작업형3(신 버전) 2번, 6회 기출유형(작업형3) Q2-1을 보면서, formula 값을 언제 지정해야하는지 궁금하여 질문드립니다. <예시문제 작업형3(신 버전) 2번>Gender, SibSp, Parch, Fare를 독립변수로 사용하여 로지스틱 회귀모형을 실시하였을 때, Parch 변수의 계수값은? (반올림하여 소수 셋째 자리까지 계산) #2. print(df[['Gender', 'SibSp', 'Parch', 'Fare']].head(3)) from statsmodels.formula.api import logit model = logit("Survived ~ C(Gender) + SibSp + Parch + Fare", data=df).fit() print(model.summary()) print(round(-0.2007,3)) # -0.201여기에는 formula를 따로 정의하지 않았고, <6회 기출유형(작업형3) Q2-1>다중 선형 회귀 모델을 구축하고, 독립변수 o3의 회귀계수를 구하시오.독립변수: solar(태양 에너지), wind(바람의 세기), o3(오존 농도)종속변수: temperature(온도) from statsmodels.formula.api import ols formula = "temperature ~ solar + wind + o3" model = ols(formula, data=df).fit() print(model.summary()) # 0.0749 model.params['o3'] 여기에서는 formula를 정의하였습니다. ㅠㅠ 둘이 뭔 차이길래 그런지 잘 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2
rmse평가 작성할때 강사님과 다르게 이렇게 적었는데가능한가요?(문제에서 rmse로 평가하시오 라고 되어있을때밑에처럼 적으면 rmse로 평가가 가능한거죠..?) from sklearn.ensemble import RandomForestRegressor model=RandomForestRegressor() model.fit(X_tr,y_tr) pred=model.predict(X_val)from sklearn.metrics import mean_squared_error mse=mean_squared_error(y_val,pred) rmse=mse**0.5
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오류
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 X_train.corr() 실행시 ValueError: could not convert string to float: 'State-gov' 오류 뜹니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출 유형(작업형2)에서 데이터 전처리 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요6회 기출 유형 작업형2에서 왜 target값은 원핫인코딩을 하지 않은 것인가요?즉,# target컬럼 처리 target = train.pop('Heat_Load') # 원핫 인코딩(판다스) print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) print(train.shape, test.shape) 제 생각엔, 제출 형식이 숫자가 아니라, 'very low' 이런 형식이라서 타겟값은 데이터 전처리를 하지 않은 것인가요? pred Very Low Low High ... Very High
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 기출 등과 해서 계속 반복해서 연습하던 중에요
기출에서는 랜덤포레스트에서는 (random_state=2022) 이렇게 random_state 값을 주는데 이번에 올라온 예시문제 신 버전 문제에서는 랜덤포레스트에서 (random_state=0) 값이 없더라구요. 이유가 있을까요 ?
-
미해결[EduAtoZ] 빅데이터분석기사 실기 (with Python)
DataManim site 문제풀이 방법 (실기 링크 첨부)
DataManim site 문제풀이 방법 (실기 링크 첨부)이 강의에서 ipynb 다른이름으로 저장 누를때계속 txt파일로 자동저장되는데어떻게하면 자동저장되는것을 막을 수 있을까요?모든파일로 눌러도 txt로 자동저장되네요ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경에서 제출버튼 클릭 한번만? 무제한?
안녕하세요. 제가 알고 있기로는 시험시간 3시간동안 작업형1과 작업형3은 무제한으로 제출 버튼을 누를 수 있다고 알고 있습니다. 제가 알고 있는게 맞는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회기출 1번 문항의 2번 오류 문의 입니다.
위 이미지와 같은 문구가 나오는데 요건 어떤 의미인지 문의드릴 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5-2 강의자료에서 마지막 줄에 y_test로 평가할 때 r2 score가 마이너스가 나올수 있나요?
에이비앤비 가격 관련 문제 강의자료에서예측값 pred와 강사님께서 올려주신 y_test로 r2_score를 계산했을 때 값이 마이너스가 나왔습니다. 이 값이 맞게 나온 결과인가요? 아니면 제가 실수를 한 것인가요? 전체적으로 다시 코드를 실행했는데도 같은 결과가 나와 질문드립니다. y_test = pd.read_csv("y_test.csv") print(r2_score(y_test, pred))-0.03400982959617549
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pd.get_dummies(train[cols])와 (train, columns=cols) 차이가 궁금합니다.
원핫 인코딩 코드에서 괄호 안에 [cols]를 쓸 때와 columns=cols를 쓸 때의 차이가 궁금합니다.3-4 Feature engineering에서와 3-6 Regression에서 작성법이 달라서요. 3-6 Regression에서는 train[cols]로 썼더니 에러가 나네요ㅠ# 3-4 Feature engineering c_train[col] = le.fit_transform(c_train[col]) c_test[col] = le.transform(c_test[col]) # 3-6 Regression train = pd.get_dummies(train, columns=cols) test = pd.get_dummies(test, columns=cols)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9분 42초에 pred_proba
9분 42초 쯤print(roc_auc_score(y_val, pred_proba[:,1])))pred_proba 다음에[:,1]을 붙이는 이유는 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
휘트니 검정
Levene 검정의 귀무가설은 분산이 동일하다 라고 하셨는데요 반대로 만휘트니유 검정은 귀무가설이 분산이 다르다인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
grouby().mean()오류
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 df.groupby('원두').mean() 실행시 TypeError: agg function failed [how->mean,dtype->object] 이 오류는 어떻게 해결하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
의사결정나무로 할 때 에러코드가 뜨는데 이유를 모르겠어요ㅠ
-
미해결빅데이터 분석기사 시험 실기(Python)
질문!
더미화를 해주는데 라벨인코딩을 같이하는 이유가 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2, 내장함수 질문
선생님 안녕하세요! 시험이 다가오면서 헷갈리거나 저번에도 살짝 아리쏭했던 부분이 복습하면서 이해못한 부분이 명확해지면서 질문들이 많아졌는데 항상 자세히 알려주셔서 감사합니다 ㅠㅠㅎㅎ 오늘도 질문드립니다!! 1. X_train데이터와 y_train데이터가 나누어져서 제공받았을 때 이를 합쳐야 하는 경우가 무엇인가요? 그리고 만약 합친 경우 나중에 꼭 분리를 해야하나요? 2. 작업형 2를 진행할 때 결측치가 있을 시 행은 삭제하면 안되고, 컬럼은 train, test데이터 각각에 모두 삭제는 가능한 것 맞을까요? 3. count() 함수는 axis=0일 때 컬럼을 기준으로 세는 것이 맞나요? 원래라면 axis=0이 행을 기준으로 하는 것으로 알고있는데 count()는 반대인듯 해서요! 4. 데이터 피처 엔지니어링을 진행할 때 스케일링 시 X_train[cols]는 데이터 프레임 형태로 진행되는 것 맞을까요? 그렇다면 라벨인코딩에서는 for문을 사용하여 X_train[col]로 진행하는데 그러면 데이터 프레임이 아닌 시리즈 형태인것 아닌가요?? 이 부분이 헷갈려서 여쭤봅니다! 5. 만약 작업형 2에서 범주형 데이터가 1~2개만 있다면 수치형 데이터로만 모델을 평가도 해보고 범주형을 인코딩해서 다함께 평가 두가지를 모두 해보는게 좋을까요, 아니면 범주형 데이터가 있다면 인코딩을 했을 때를 무조건 해보는 것이 좋을까요? 6. describe에서 이상치가 눈에 보인다면 행을 삭제 못하는데 어떻게 해야하나요? 아예 그 컬럼을 삭제하는게 나을까요? 7. random_state값을 달리하면 평가지표도 다르게 나오던데 아무숫자나 고정해서 쓰면될까요? 모든 것에 random_state=0 이런식으로 고정해서요! 8. n_estimators는 max_depth를 안쓰고도 써도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 범주형 데이터 처리시
from sklearn.preprocessing import LabelEncodercols = ['Gender','Education_Level','Marital_Status','Income_Category','Card_Category'] 이렇게 하나하나 다 적는방법도 잇지만 cols=train.select_dtypes(include="O").columns이렇게도 가능하다고 하셧는데 만약 이렇게하면 다른 네임명으로 받으면서 test도 따로 해줘야하나요 cols2=test.select_dtypes(include="O").columns이렇게요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제 1
코랩으로 입력중인데 from sklearn.preprocessing import LabelEncoder cols = ['Gender','Education_Level','Marital_Status','Income_Category','Card_Category'] for col in cols: le=LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) target = train.pop('Attrition_Flag')에러가 나와요 왜그런거죠 KeyError Traceback (most recent call last)/usr/local/lib/python3.10/dist-packages/pandas/core/indexes/base.py in get_loc(self, key, method, tolerance) 3801 try:-> 3802 return self._engine.get_loc(casted_key) 3803 except KeyError as err:6 framespandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item()pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item()KeyError: 'Attrition_Flag'The above exception was the direct cause of the following exception:KeyError Traceback (most recent call last)/usr/local/lib/python3.10/dist-packages/pandas/core/indexes/base.py in get_loc(self, key, method, tolerance) 3802 return self._engine.get_loc(casted_key) 3803 except KeyError as err:-> 3804 raise KeyError(key) from err 3805 except TypeError: 3806 # If we have a listlike key, checkindexing_error will raiseKeyError: 'Attrition_Flag'
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-4 Feature engineering 데이터 전처리 질문입니다.
X_test 데이터 전처리에서 'age'와 'hours.per.week'의 fillna가 X_test가 아닌 X_train의 평균과 중앙값으로 이루어졌는데요, 아래와 같이 X_test값으로 fillna하면 안 되는 걸까요? X_test['age'] = X_test['age'].fillna(int(X_test['age'].mean())) X_test['hours.per.week'] = X_test['hours.per.week'].fillna(X_test['hours.per.week'].median()) 원본# X_test데이터 X_test['workclass'] = X_test['workclass'].fillna(X_test['workclass'].mode()[0]) X_test['native.country'] = X_test['native.country'].fillna(X_test['native.country'].mode()[0]) X_test['occupation'] = X_test['occupation'].fillna("X") X_test['age'] = X_test['age'].fillna(int(X_train['age'].mean())) X_test['hours.per.week'] = X_test['hours.per.week'].fillna(X_train['hours.per.week'].median())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[학습법] D-10 남은상태에서 작업형3은 어떻게 준비해야할까요?
선생님 안녕하세요~ 그간 많은 질문을 남겼는데요! ㅠㅠ 작업형1,2는 기출을 바탕으로 연습문제도 꽤나 있어서 캐글을 포함하여 강의에 있는 문제까지 풀면서 대비하고 있습니다.. 다만 작업형3은 인강에 있는 문제와 코드 공부하고 있는데, 아직까지 개념이 흩날려있다고 해야하나요.. 뭔가 딱 잡히는 게 없는데, 어떤식으로 대비하는게 좋을까요? ㅜㅜ일단 전 완전 초보자라서작업형2에서 만점, 작업형1에서 많아야 2개, 작업형3은 최대1개 맞추는 전략으로 갈까합니다 ㅠㅠ