묻고 답해요
143만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형에서 RMSE가 너무 크게 나오는 문제
아래와 같이 코딩을 했는데, RMSE값이 42만 정도가 나옵니다. 강사님 강의에서는 4만 수준으로 나오는데요.무엇이 잘못된건지 모르겠습니다...ㅜimport pandas as pd train=pd.read_csv('mart_train.csv') test=pd.read_csv('mart_test.csv') # print(train.info(), test.info()) y=train.pop('total') # print(y.describe()) # print(train.info(), test.info()) print(train.shape, test.shape) total=pd.concat([train,test], axis=0) print(total.shape) total=pd.get_dummies(total) print(total.shape) train=total[0:700] test=total[700:] print(train.shape, test.shape) from sklearn.model_selection import train_test_split X_train, X_val, y_train, y_val = train_test_split(train, y, test_size=0.2, random_state=2024) print(X_train.shape, X_val.shape, y_train.shape, y_val.shape) from sklearn.ensemble import RandomForestRegressor rf=RandomForestRegressor(random_state=2024) rf.fit(X_train, y_train) pred=rf.predict(X_val) # print(pred) from sklearn.metrics import mean_squared_error print(mean_squared_error(pred, y_val)**0.5) result=rf.predict(test) # print(result) print(result.shape) final=pd.DataFrame({ 'pred':result }) final.to_csv('result.csv', index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형 타겟을 수치형으로 변환해야하는 경우
타겟값 변경은 주로 분류 문제에서 범주형 라벨을 숫자로 변환해야 할 때 사용됩니다. 예를 들어, 이진 분류에서는 True/False, Yes/No와 같은 값이 입력될 수 있으며, 이러한 값을 0과 1처럼 변환하여 모델에서 사용할 수 있습니다. 예로 주신 (y_test['income'] != '<=50K').astype(int)은 소득이 특정 값보다 작거나 큰지를 0과 1로 변환하는 작업입니다. 이 작업은 타겟 라벨을 모델에서 이해할 수 있는 형식으로 변환하기 위해 필요합니다. 그렇다면 범주형을 숫자로 변환해서 모델에서 이해하도록 변경해야하는 경우는 그럼 어떤 경우가 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2
[6. 학습 및 평가] 단계에서 RandomForestClassifier / RandomForestRegressor 까지만 하고평가지표를 뽑아보지 않은 상태로[7.예측 및 제출]을 해도 무방하지 않은지 궁금해졌습니다. (방금 빼먹고 푼 거 맞습니다.ㅠ) 처음 나온 평가지표를 기준점으로 삼아위에서 전처리 작업 등을 추가하지 않는 극초보생 기준의 궁금증입니다.작업형2를 반드시 40점 맞아야하는 관점에서 답변해주시면 감사하겠습니다. (평가지표 다시 외우는 중~ㅋ)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신버전) concat 문의
target = train.pop('성별')train['환불금액'] = train['환불금액'].fillna(0)test['환불금액'] = test['환불금액'].fillna(0)df = pd.concat(['train', 'test']) concat 해서 원핫인코딩으로 해보려고 했는데 TypeError: cannot concatenate object of type '<class 'str'>'; only Series and DataFrame objs are valid와 같은 에러가 발생하는데 왜그런건가요 ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ttest_rel 순서와 alternative
뮤d = (살충제를 뿌린 후의 곤충 수- 살충제를 뿌리기 전의 곤충 수)의 평균귀무: 뮤d>=0대립: 뮤d<0before_spr : 살충제를 뿌리기 전의 곤충 수after_spr : 살충제를 뿌린 후의 곤충 수 stats.ttest_rel(df['after_spr'], df['before_spr'], alternative = 'less') 이게 맞는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출 작업형2
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요안녕하세요target=train.pop['TotalCharges'] 하면'method' object is not subscriptable이라는 메세지가 뜨는데 왜그런 걸까요ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ttest_rel 이것이 맞나요?
데이터 입력 순서는μd = (before – after)라면stats.ttest_rel(df['after'],df['before']로 μd = (after - before)stats.ttest_rel(df['before'], df['after']로 작성해주세요 alternative는 대립가설이 참일 때 기준, 첫번째 파라미터 자리가 큰지 작은지에 맞춰 작성하면 됩니다)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
stats.ttest_rel
stats.ttest_rel(df['after_spr'], df['before_spr'], alternative = 'less')stats.ttest_rel(df['before_spr'], df['after_spr'], alternative = 'greater')둘다 값이 같아야 하는 거 아닐까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분류 문제에서 평가할 때 classification report로 진행할 경우 문제가 있을까요?
classification report로 하면 여러 지표를 한눈에 볼 수 있으니각각의 코드를 안외워도 되는 이점이 있는 것 같습니다. 문제에서 f1 classification report 불러와서 봐도 되겠지요..?from sklearn.metrics import classification_report report =classification_report(y_val, pred_rf) print(report)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼 파라미터 문의
랜덤포레스트에서 하이퍼 파라미터 할때,learning_rate 하면 오류나던데,랜덤포레스트에서는 적용이 안되나요?max_depth랑 n_estimators로만 파라미터 수정하면되나요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
f1 스코어 시 에러 문의
# f1 스코어 from sklearn.metrics import f1_score print(f1_score(y_val, pred)) ValueError: Target is multiclass but average='binary'. Please choose another average setting, one of [None, 'micro', 'macro', 'weighted']. 영상에서는 바로 출력되던데, 이것은 무슨 오류인가요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2에서 인코딩과 스케일링
작업형 2에서데이터 스케일링(min_max, standard scaler)는 안하시는 것 같은데 혹시 이유가 있을까요? 보통 분석 흐름에는 데이터 표준화를 하는 경우가 많은 것 같아서 여쭤봅니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
독립표본 ttest_ind 검정
독립표본 ttest_ind 검정에서 ttest_ind(A, B)를 쓸때 A에 오는 것을 어떤것으로 해야 하나요? 예) 오렌지주스를 투여받은 기니피그 치아길이 평균이 아스코르브산을 투여받은 기니피그 치아길이 평균과 일치하는 지 구해라
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 / 라벨인코딩
object형 처리 시 어떤 때에 원핫인코딩하는게 좋고 라벨인코딩하는게 좋고 하는 기준이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형 반올림 명시 없으면
소수점 몇 번째 자리든 다 작성하면 되나요?그 이전에 문제에서 반올림 명시를 하겠죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 삭제
X_test, X_train, y_train 데이터일때결측치 채울때는 X_test, X_train 모두 채우고결측치나 이상치 삭제시에는 X_train, y_train만 삭제하고 X_test는 삭제하면 안되는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
MSE 구하는법
안녕하세요. 회귀분석 모델의 MSE 구하는 방법에 대해 문의드립니다.ols 모델 학습하고 난 후, model.mse_resid 메서드로 MSE 구하는 방식이 있더라구요. 근데 선생님이 정석적으로 풀이해주신 방법의 답과 차이가 있어서 문의드립니다. 자유도 처리나 계산 방법에 따라 차이가 있는 것으로 추정되는데, 이럴 경우 어떤 방식을 활용하는 것이 더 나을지 궁급합니다.혹은 똑같은 방법으로 답을 구할 수 있는 메서드가 있는지도 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 7회 3유형 1-2 문제
이과정,, from statsmodels.formula.api import logit 으로 진행하면 안되나요??
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
XGBoost 시험장 사용 가능 여부 관련!!
안녕하세요, 드디어 내일이 시험이네요,그동안 너무 감사했습니다! 다름이 아니라 작업형 2유형에서 모델을 XGBoost를 이용하려고 하는데요! 체험환경에서 미리 사용을 해봤을때 경고가 자꾸 표시됩니다. 경고 여부와 관계없이 XGBoost를 사용해서 제출해도 이슈가 없을것 같다고 생각되긴 합니다만, 혹시 몰라 선생님께 확인차 여쭤보고 싶습니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
간단한 데이터프레임을 새로 생성할 때
pd.DataFrame 독스를 보니 너무 여러 방법이 있어서 헷갈려서 질문드립니다...따로 추천하시는 방법이 있나요? 수업에서 본 대로 인덱스명이 key고, 리스트가 value인 딕셔너리를 넣는 법을 가장 추천하시나요?중괄호를 쓰다가 유독 오타가 자주 나네요 @_@ 특히 간단한 적합성 검정같은 거에서 줄글로 정보만 띡 내놓는 상황이 가장 두렵습니다. observed data는 컬럼 하나짜리인 Case별 프레임이고 expected frequency는 왜 달랑 딕셔너리 하나랍니까이거 최종적으로 stats.quisquare에 어떤 방식으로 들어가는건지는 둘다 관찰값과 기대분포에다가 실험크기를 곱한 리스트같지만 이건 데이터 전처리를 어떻게 해야 할지...