묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회실기 작업형2
안녕하세요 선생님 덕분에 7기 시험 잘 마무리 했습니다 감사합니다 다름이 아니라 이번 시험에서 lgbm을 사용했는데 끝나고 다른 사람들 말 들어보니 lgbm은 결과에 음수값을 생성한다 하더라고요 제가 처음 랜덤포레스트 돌렸ㅇㄹ때 rmse값이 100만 정도 됐고 lgbm으로 돌리니 83만정도 돼서 lgbm으로 제출했는데 40점 만점은 아니더라도 점수를 아예 못 받지는 않겠죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일링 순서 궁금합니다
강의에서 전처리 - 스케일링-인코딩 그리고 그 후에 데이터 분리를 했는데 어떤분들은 검증용 데이터 분리를 하고 나서 스케일링을 하기도 하더라구여 두 방법의 차이가 있을까요~?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일러 적용방안에 대한 질문
시험 잘 치뤘습니다. 그냥 문득 궁금한 점이 있어서 질문글을 올립니다.스케일러를 적용할 때 train데이터 대상으로 fit_transform을 한 뒤,test 데이터를 대상으로는 transform을 하는 것으로 알고 있습니다.그런데 문득 든 생각은, 저희가 작업할 때 train_test_split이라는 함수를 쓰는데여기에서 x_tr, x_val, y_tr, y_val로도 나눕니다.그래서 스케일러를 x_tr대상으로 만들고(즉 x_tr을 대상으로 fit_transform)x_val과 test셋에서는 transform을 해줘야하는게 아닌가라는 생각이 들어서 질문드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업 2유형
minmax - 라벨인코딩 - 데이터분리 (테스트사이즈0.2) - 랜포 후에 RMSE 돌렸더니 700만대가 나왔는데 여러 커뮤니티 참고해보니 400만대부터 900만대까지 다양하더라구요... 이게 데이터분리를 하면서 값이 다르게 분리되어서 그런거죠? 700만대가 나왔다고해서 틀린답은 아니겠죠? 아 그리고 마지막에 pd.read_csv(확인만 해보고 주석처리 했습니다)는 제출 안해도 상관없는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회/ 작업형2번 문의(lightgbm)
안녕하세요 이번 7회 작업형 2번관련하여 문의를 아래와 같이 드립니다 < 문의내용 >1. 회귀 / 분류 중에 어떤 문제 였는지 ? lightgbm regression 으로 문제를 풀이 하였는데, "데이터전문가포럼' 네이버 카페에서 조회하니 랜덤포레스트 classifier 로 문제를 풀이 하는 분들이 있어서제가 완전히 틀린 것인가 싶어서 문의드립니다 2. regression으로 문제를 풀이하고, pred를 작성하였는데예측하는 값이 amount(금액) 값이 '- 값이 발생' 해도 문제가 없는지 ? 상식선에서는 예측하는 값이 amount의 경우는 무조건 양의 값이 나와야 하는데, '음수 값이 발생해서 의문' <예상구성코드>*amount 값을 예상하는 내용*train / test 2개 파일만 제공하였음 train Set에서 POPamount 값에 대해서 target으로 변경하여 pop 처리lebel Encoding Model_Selection > train_test_splitLightgbm-regressionmax_depth / N_estimater / Learning Rate 만 조절Sklearn > metrics > MSE MSE ** 0.5 로 RMSE 구성
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 실기 제가 작성한 답들 공유해봅니다...
작업형1-1 표준화 문제 : 1.083작업형1-2 상관관계 : 4.809작업형1-3 이상치 갯수 구하기 : 224작업형2 회귀 : RMSE 값이 대략 473만....(RandomForestRegressor로 했는데 너무 커서 긴가민가하여 xgboost나 lightgbm 써도 8~900만대라 그냥 제출)작업형3-1-1 오즈비 : 0.754작업형3-1-2 잔차이탈도 : 3.008 (이건 모르겠어서 로지스틱회귀 result에서 Intercept의 z값 적음)작업형3-1-3 error rate : 기억이 나지 않음....작업형3-2-1 결정계수 : 0.901작업형3-2-2 회귀계수 : 0.985직업형3-2-3 가장 높은 p-value : 0.052 이렇게 제출했는데 60점 이상은 나오겠죠....ㅎㅎ 이번 시험 합격해서 졸업했으면 좋겠네요ㅎㅎ 선생님 덕분에 그래도 생각보다 많이 풀게되서 기분이 좋았습니다. 감사합니다~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 실기 질문드립니다!
이 강의를 알게 되어서 이번 시험을 준비하는데 있어 정말정말 큰 도움이 되었습니다!!! 정말 감사드립니다!!! 시험을 보고 나온 시점에서 궁금한 점이 있는데요,get_dummies를 사용할 때 drop_first=True를 train,test에 모두 적용해도 되는지 궁금합니다!또 걱정이 되는 부분은 작업형 2유형에서 모델 성능이 너무 작게 나왔다는 점입니다. RMSE값은 기억이 나지 않지만 r2값이 0.6언저리로 낮게 나왔습니다... 성능이 낮다는 이유로 0점이 나온 경우가 있는지 궁금합니다ㅠㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 유형 2번 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 이번 빅데이터분석기사 7회 응시생입니다! 다름아닌 RMSE 값이 900만대가 나왔는데 오답처리될까요? 다른분들은 440만이라 불안해서 질문드립니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님 시험 질문있습니다!
선생님! 안녕하세요 ㅎㅎ 선생님 덕에 작업형 3-1 소문제 두개빼고는 다 제대로 풀 수 있었어요 넘 감사합니다💜 두개는 그냥.. 느낌대로 우선 제출은 하고왔습니다🤣🤣 작업형3 아예 모르는부분으로만 나올까봐 진짜 너무너무 걱정했는데.. 너무너무 감사합니다ㅠㅠ 곧 후기 제대로 남기겠습니다!!!!근데 제가 여쭙고싶은게 있는데요!1.작업형2 제출파일 pred가 모두 소수점 밑으로 끝에 e가 붙는데 그래도 괜찮은것 맞을까요?2.강한 상관관계 = 양과 음의 상관관계 모두 생각해서 절댓값으로 확인해 변수를 찾았는데 강한 양or음의 상관관계가 아니고선 이렇게 해도 되는것 맞을까요?!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 2유형
범주형 변환할때train = pd.get_dummies(train)test = pd.get_dummies(test) 이렇게 코딩했는데 이 두줄이면 변환 된거죠..??(cols변수에 범주형 담지 못하고, 통째로 괄호안에 써버렸네요..)info찍어서 범주형없는거 확인했고,rmse 270만, r2스코어 0.92 뜬것도 확인했는데도 원핫 처음써봐서 여쭤봅니다.(라벨만 연습했었습니다 ㅠㅠ) 어이없는 질문 받아주셔서 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형 작업형 2에서 제출항목에서 질문있습니다 !
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요제출형태에 index와 y_pred를 넣으라고 되어있었는데, 이런 상황에서 실제 시험이면 index를 넣지않고 y_pred만 넣는다면 0점 처리가 되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 전처리
데이터 전처리할때 타겟이 아닌날짜데이터나 이름, 아이디값 (호스트 아이디) 같은거는 학습에 불필요해서 컬럼을 삭제해주는것이 좋나요?? 같이 학습할 경우 성능이 저하될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 최종 csv생성 시, 표현되는 값들의 소수점 관련문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요.보통 작업형2 유형의 경우 예시된 pred 값이 소수점인 경우(보통 회귀모델)소수점이 2번째 자리까지 표현되는데 제가 만든 csv파일을 read해보면 소수점 6자리까지도 pred값에표현되고 있는데 상관없는건가요?rmse 값을 y_test로 불러왔을땐 예시로 만들어주신 값과내가 코드를 작성하여 만든값이 별로 차이는 없습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
구버전 작업형3 문제 문의
안녕하세요! 캐글에서 구버전 작업형3문제를 풀다가 급하게 질문남깁니다 ㅜㅜ 문제에선 정규성이 검증되었다는 말이 없고, shapiro 결과로는 0.05보다 작게 나오더라구요 이럴땐 비모수 검정으로 진행해야한다고 알고 있었는데 풀이에서 ttest_rel로 풀이하셔서요 ㅜㅜㅜㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test_size를 조절하니 pred_proba와 test_id 개수가 맞춰졌습니다
랜덤포레스트로 단순하게 테스트사이즈를 0.2로 하고 진행했더니 행의 개수가 달라지더라고요! 그래서 계속 오류가 발생했는데 테스트 사이즈를 조절하다 0.25로 하니 61개로 딱 맞아서 답이 출력되네요!왜 그런지 혹시 이유가 있을까요?사진과 같이 roc로하면 확률이 나오는데 단순하게 pred로 하면 확률이 아닌 0 과1로 출력이 됩니다. 원래 이렇게 나오는건지 궁금하고 문제에서는 roc로 csv를 구하라는건지 궁금합니다. 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
LGBM 질문
공부하다가 다른곳에서 본 자룐데 이런식으로 코딩해도 되나요??선생님 강의는 import lightgbm as lgb 이렇게 시작하더라구요.. 혹시 같은건가요?그리고 위사진에서 분류만 존재한다는데 맞는건가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형 2유형 질문있습니다
import pandas as pd train = pd.read_csv("data/customer_train.csv") test = pd.read_csv("data/customer_test.csv") pd.set_option('display.max_columns',None) # EDA # print(train.shape, test.shape) # print(train.describe(include='O')) # print(test.describe(include='O')) # print(train.isnull().sum()) # 결측치: 환불금액 # print(train.isnull().sum()) # print(train.info()) # print(train.describe(include = 'O')) # print(sorted(list(train['주구매상품'].unique()))) # print(sorted(list(test['주구매상품'].unique()))) a = set(train['주구매상품'].unique()) b = set(test['주구매상품'].unique()) print(a - b) print(b - a) # 데이터 전처리 train['환불금액'] = train['환불금액'].fillna(train['환불금액'].mean()) test['환불금액'] = test['환불금액'].fillna(test['환불금액'].mean()) # print(train.isnull().sum()) # print(test.isnull().sum()) # 원핫인코딩 df = pd.concat([train,test]) df = pd.get_dummies(df) train = df.iloc[:len(train)] test = df.iloc[len(train):] print(train.shape, test.shape) # 검증데이터 분리 from sklearn.model_selection import train_test_split x_tr,x_val,y_tr, y_val = train_test_split(train.drop('성별',axis =1), train['성별'], test_size=0.2, random_state=2022) # print(x_tr.shape,x_val.shape,y_tr.shape, y_val.shape) # 모델 및 평가 from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import roc_auc_score model = RandomForestClassifier(random_state = 2022, max_depth=4, n_estimators=500) model.fit(x_tr, y_tr) pred_proba = model.predict_proba(x_val) print(roc_auc_score(y_val, pred_proba[:,1])) # # 0.6759 # # print(test.shape) # # print(test.isnull().sum()) # 예측 및 제출 pred_proba = model.predict_proba(test) train이 test를 포함할 경우 train + test 를 합쳐서 원핫인코딩을 진행했습니다.모델 및 평가까지는 에러 없이 진행하였는 데 test 데이터를 예측하는 pred_proba = model.predict_proba(test) 부분에서 아래와 같은 에러가 발생했습니다. 어떤게 문제였는지 궁금하여 질문글 올립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 검정방법 결정하기 질문드립니다..!!
안녕하세요! 항상 질문에 친절하게 답변해주셔서 감사드립니다.작업형 3에서 검정 방법 별 코드는 외웠는데 문제는 이걸 문제에 실제 적용하는게 너무 어려운것 같습니다...문제에 대응표본검정을 사용하라, 카이제곱 검정을 사용하라 이런말이 없이 그냥 말로 표현해서 검정통계량이나 pvalue 값을 구하라 했을때 어떤 검정을 사용해야될지 구분하기 쉬운 팁같은게 있을까요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 에러
인코딩할때 범주형 변수의 train 과 test 고유값의 수가train < testtrain != test위의 경우일 때 인코딩을 진행하면 무조건 에러가 발생하나요? 고유값의 수가 일치하는지 확인하지 않고 바로 인코딩을 진행하려고 하는데진행하다가 에러가 발생하면 컨캣을 진행하려고 합니다. object 컬럼이 4개이면 4개다 고유값의 수를 확인해야하는거죠??set () - set() 이런식으로 빼서 컬럼마다 확인해야하는 방법밖에 없는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ttest 검정통계량
stats.ttest_rel(df['after'],df['before'],alternative='less'데이터 순서에 따라 검정통계량이 양수/음수로 바뀌는데 문제에서 검정통계량을 물어보는 경우에는 양수/음수 중에 어떤것으로 답해야 하나요?