묻고 답해요
143만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test 데이터 예측 결과에서 한 값만 튀는데 이럴 수 있는건가요?
3-5 마지막 문제 중 평가 데이터로 예측하는 부분에서 이런 결과가 나왔습니다. 어떤 부분을 놓쳤는지 모르겠지만 강사님의 예측 결과랑 완전 똑같진 않아요. 그래도 첫번째 자리수까지는 똑같은데요.. 문제는 id가 4213인 값이 혼자 튀는데 이런 경우도 있을 수 있나요? 아니면 제가 뭘 잘못한건가요? 정확도 평가는 88% 나왔습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
독립표본검정에서요
두 집단의 분산이 같은지 다른지 여부를 모를때 shapiro 검정을 통해 정규성 만족 여부 확인1-1) 정규성을 만족한다면 levene 검정을 통해 등분산 검정을 한다. 등분산 검정 시 0.05보다 크다면 귀무가설 채택(등분산이다) 0.05보다 작으면 대립가설 채택(등분산이 아니다) 1-2) ttest_ind 진행stats.ttest_ind(a,b,equal_var = True) <- 레빈검정 귀무채택시stats.ttest_ind(a,b,equal_var = False) <- 레빈검정 귀무기각 시 정규성을 만족하지 않는다면stats.manwhitneyu(a,b,alternative = 'less') 진행 문의내용위 순서로 진행하는게 맞는건지 문의드리며만 휘트니 검정할때는 만 휘트니 검정 자체가 정규성 불만족할때의 ttest와 같다고 생각하면 되는건지 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 - 8회 오류
--------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-32-9c792161035b> in <cell line: 2>() 1 # 최종 제출 파일 ----> 2 pred = rf.predict(test) 3 result = pd.DataFrame({'pred':pred}) 4 result.to_csv('result.csv', index=False) 3 frames/usr/local/lib/python3.10/dist-packages/sklearn/base.py in _check_feature_names(self, X, reset) 533 ) 534 --> 535 raise ValueError(message) 536 537 def _validate_data( ValueError: The feature names should match those that were passed during fit. Feature names unseen at fit time: - customerID_CUST0001 - customerID_CUST0002 - customerID_CUST0006 - customerID_CUST0007 - customerID_CUST0008 - ... Feature names seen at fit time, yet now missing: - customerID_CUST0000 - customerID_CUST0003 - customerID_CUST0004 - customerID_CUST0005 - customerID_CUST0009작업형 2 한가지 방법으로 풀어보기를 그대로 해서 8회를 풀엇는데, 이런 에러가 뜹니다. id 값을 없애는 작업을 해줘야할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
등분산이 같은지 다른지를 만약 모른다면,
문제에서 만약 안주어진다면, 레빈 검정을 우선 진행해서 pvalue값을 확인 해야하는거겠쬬?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 찾기
테스트 데이터와 train 데이터 프레임 안의 데이터가 서로 포함하지 못한다면, concat을 사용하여 합쳐서 label이나 one hot 인코딩 진행하라고 하셨는데요, 지금은 내부 데이터 양이 작아서 각 데이터 별로 서로 포함여부를 알 수 있는데 몇천 row가 되는 data들은 서로 포함되는지 어떻게 알 수 있을까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
RMSE 질문
안녕하세요 강사님~RMSE 출력 할 때,from sklearn.metrics import mean_squared_error많이 사용하지만, 이번에 확인 해보니까 from sklearn.metrics import root_mean_squared_error가 있어서 사용 가능 할까요? 시험 체험에서도 dir()를 확인 한 결과 metrics 에 root_mean_squared_error 가 있는 걸 확인 했습니다. 감사합니다~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형 변수차이 발생시 concat 처리
범주형 변수 차이: train과 test 데이터에 포함된 범주형 변수의 카테고리 수가 다를 수 있습니다. 예를 들어, train에 있는 범주가 test에 없거나 그 반대의 경우입니다.=> train(A), test(B)라 예를 들면set으로 A-B했을 경우 변수가 나올때는 강의영상중 concat없이 인코딩 진행하셨고 B-A 변수 나올때 문제될수 있다고 이해했습니다만,A-B이든 B-A이든 변수차이 있으면 무조건 concat한후 인코딩하고 다시 분리하는게 맞는지요? 어느 강의는 그냥 인코딩하시고, 답변을 검색해보면 A-B변수가 나와도 concat하라는 답변이 나와서 명확한 기준을 모르겠습니다. A-B에 변수차이가 나오는 경우는(train에는 있고 test는 없는 변수 있는 경우) 그냥 인코딩해도 무관한것인가요?생략해도 되는 경우이면 단순하게 가는게 실수도 줄일수 있을듯 하여 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형 2번에서 이진분류와 다중분류를 구별할 수 있는 방법이 궁금합니다. 어떤 데이터를 보고 판단할수있나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3과목 답안 제출 시 궁금한점이 있어요
안녕하세요, 강의 너무 잘 완독했습니다, 이번주가 드디어 시험이라, 여기서 잘 배운것들로 꼭 합격하고 오겠습니다.질문은, 제가 첫시험이다 보니 3과목 답안제출이 궁금합니다.3과목의 경우 1과목처럼 단순 답만 제출하는 걸까요 아니면 logit 이나 ols를 통해 나혼 print(model.summary()) 값과, 답을 함께 제출하는것일까요?예를 들면, 8회기출유형 (작업형3) 2-1번 문제의 경우 답은 코드 전체 +print(model.summary())를 내는것인지, 마지막 2.343 값만 print로 제출하면 되는건지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이말은 왜 뜰까요?
XGBoost의 'manylinux2014' 변형을 설치했습니다. GPU 알고리즘이나 연합 학습과 같은 특정 기능은 사용할 수 없습니다. 이러한 기능을 사용하려면 glibc 2.28+의 최신 Linux 디스트로로 업그레이드하고 'manylinux_2_28' 변형을 설치하세요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예측 정확도 정답 커트라인이 어느정도인가요?
영상과 같이 랜덤포레스트+라벨인코딩 조합으로 예측정확도 0.6나왔습니다. 해당 예측 정확도가 시험에 통과할 정도의 커트라인인지 궁급합니다. 또한 예측정확도가 잘 나오지 않을 경우 랜덤포레스트 이외 xgboost와같은 모델 변경도 시험장에서 크게 고려해야될 사항일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3
pred = model.get_prediction(new_data)로 할 때도 있고 pred = model.predict(new_data) 이렇게 할 때도 있나요? 둘의 차이가 뭘까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 나누기 질문
from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train.drop('TotalCharges', axis=1),train['TotalCharges'], test_size=0.2, random_state = 2024) X_tr데이터가 train일때랑 train.drop('TotalCharges', axis=1)일때랑 차이가 뭔가요 ??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
마인드맵 오타가 있네요:) 수정부탁드립니다,
spicy -> scipycfQ 혹시 마인드맵은 어떤 것으로 만들었는지 여쭤봐도 될까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 8회 2유형 질문
원핫 인코딩시, train 과 test의 컬럼의수가 달라지는 경우가 있어서 데이터를 concat 했다가 다시 분리를 해주고 있는데요. 아래와 같이 코딩시 답안 제출까지는 가능하지만, 강사님께서 풀이한 것과 값차이가 많이 납니다. 이렇게 하면 안되나요?import pandas as pd train = pd.read_csv('churn_train.csv') test = pd.read_csv('churn_test.csv') y=train.pop('TotalCharges') print (train.shape, test.shape, y.shape) total = pd.concat([train, test], axis=0) total=total.drop('customerID',axis=1) # print (total.shape) cols=total.select_dtypes(include = 'object').columns total = pd.get_dummies (total[cols]) train = total[:4116] test = total[4116:] print (train.shape, test.shape, y.shape) from sklearn.model_selection import train_test_split X_train, X_val, y_train, y_val = train_test_split(train, y, test_size=0.2, random_state=0) print(X_train.shape, X_val.shape, y_train.shape, y_val.shape) from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor() rf.fit(X_train, y_train) pred=rf.predict(X_val) pred from sklearn.metrics import mean_absolute_error mae = mean_absolute_error (y_val, pred) print(mae) # 결과값 제출 result = rf.predict(test) # print(result.shape, test.shape) print(result) result = pd.DataFrame ({ 'total price':result }) result.to_csv("result.csv", index=False) print(result) # help(sklearn) # import sklearn # help(sklearn.metrics )
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출유형 > 작업형 1 > 2번째 문제(10:25) 질문입니다.
bmi = df['Weight'] / ((df['Height'] * 0.01) ** 2) normal = (bmi >= 18.5) & (bmi < 23) danger = (bmi >= 23) & (bmi < 25) normal_people = len(df[normal]) danger_people = len(df[danger]) print(abs(normal_people - danger_people)) # 144 위는 제 코드입니다. 결과는 동일한데, bmi의 위험군과 정상체중 구하는 공식에서요, # 강사님 cond1 = (df['bmi'] >= 18.5) & (df['bmi'] < 23) len(df[cond1]) # 제 방식 cond1 = (bmi >= 18.5) & (bmi < 23) len(df[cond1])작성 방법은 모두 다 다르겠지만, 제가 작성하는 방식의 논리가 혹시 나중에 다른 결과값을 가져올 수도 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선형회귀분석에서 표시
범주형변수에 대해 원핫인코딩을 하니 0,1이 바뀌어서 나와요 괜찮은 거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출 작업형3-2 오즈비 관련
안녕하세요 선생님..! 강의 이해하기 쉽게 가르쳐주셔서 항상 감사드립니다!!다름이 아니라, 8회 기출 작업형 3-2번 오즈비 문제에 대한 해설은 없는건가요?! 제가 어딨는지 못찾아서 질문 드립니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일링은 컬럼중 수치형만 뽑아서 따로 해야하나요?
스케일링 : MinMaxScaler, SrandardScaler, RobustScaler스케일링은 컬럼중 수치형만 뽑아서 따로 해야하나요? 아니면 object 있어도 괜찮나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출 유형 작업형1 문제2
안녕하세요, 강사님3회 기출 유형 작업형1 문제 2번에서df.T를 이용해 푸는 방법에서 'm = df[2000].mean()' 이렇게 작성하였는데,데이터프레임에서 컬럼을 선택할 때는 df['DataFrame'] 형태로 작성해야 한다고 하셔서'm = df['2000'].mean()'으로 작성하니 에러가 발생하였습니다.컬럼명이 숫자일 때는 따옴표를 붙이면 안 되는 것인가요?괄호 안에 따옴표를 붙이는 기준과 안 붙이는 기준이 너무 헷갈리네요 ...ㅠㅠ