묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모델학습
피쳐엔지니어링에서가장 베이직한 방법이범주형 데이터 - > 인코딩 진행 후 평가 하는 방법이 맞을까요 모델을 학습하는 여러가지 방법을 정리해보려고 하는데 맞는지 확인부탁드립니다 ㅠ ㅠ데이터 : 범주형+수치형 데이터범주형 인코딩 -> 모델학습 (범주형만 학습 )-> 평가 범주형 인코딩 -> 모델학습 (범주형+수치형 학습) - > 평가수치형 스케일링 -> 모델학습 (수치형 )-> 평가범주형 인코딩 + 수치형 스케일링 -> 모델학습 (범주형+수치형 학습)-> 평가보통 1이랑 2중에 2을 일반적으로 많이 사용하나요?그리고 다른 모델은 테스트 안해보고 랜덤포레스트만 사용하고 제출하게 되면 점수에 영향이 많이 미칠까요..?보통 어떤 모델 사용하면 좋을지 추천 부탁드립니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델에 대한 평가가 끝나면 그대로 두나요?
질문 : roc_auc_score, f1_score, r2_score 등 모델에 대한 평가가 끝나면 제출하기 전에 주석처리하나요? 모델에 대한 평가가 끝나면 중요한 건 test제출인 것 같은데, 시험 제출하기 전 모두 주석 처리해야하나요? 시험이 다가오니 사소한 것도 확인받고 싶네요 ㅠㅠ 매번 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 모의문제 1
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형 2 모의 문제 1번에서 범주형 라벨링(삭제 /원핫/ 라벨링) 을 하면서 모델 성능을 비교했는데, 수치형 스케일링( 민맥스., 로버스트, 스탠다드) 는 따로 진행하지 않으신 이유가 있을까요~? 시험에서는 수치형 스케일링도 적용 하면서 함께 비교하는게 좋을까요? 그렇게되면 인코딩 x 스케일링경우의수가 9개가 되어 모두 비교하는게 좋은지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
lightGBM관련 질문입니다!
라벨인코딩해도 상관이 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
답안 작성법
유형 2의 경우 csv파일을 만들어서 오른쪽 위의 제출 유형1,3은 따로 페이지를 넘어가서 답안 작성하는것이 맞나요?강의에서는 이런식으로 마지막 값이 출력되는 코드까지 작성해주시는데 print(int(df.loc[7, '교사수'])) 1717이라는값이 눈에 보이면 풀이코드를 적지않고 답안에 값만 적어도 정답으로 인정되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 질문입니다!
시험에서 LGB만 사용할 생각이면... 평가지표(f1, rmse 등..)를 굳이 돌리지 않고 제출해도 문제가 없을까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 ,2
작업형2번에서 분류인지 회귀인지는 정확히 어떻게 구분하나요?원핫 인코딩 할 때 아래 1~4까지 다 가능한 식일까요? c_train = pd.get_dummies(c_train[cols]) ---1c_train[cols] = pd.get_dummies(c_train[cols]) ---2c_train = pd.get_dummies(c_train) ----3c_train[cols] = pd.get_dummies(c_train) ----4<=50K -> 0,>50K -> 1 을 예측하는 문제에서 y = (y_train['income'] == '>50K').astype(int) 이거말고 원핫 인코딩이나 라벨인코딩을 할 수 있나요?회귀 rmse 에서 np.exp() 해주는 이유가 뭔가요?roc_auc 평가지표 일때는 분류문제에서만 가능한가요?roc_auc 말고 확률을 구하는 평가지표는 없는걸까요? 결측치를 제거할 때, x_train,y_train,x_test 데이터 셋이 있을 경우y_train에 대해서는 이상치, 결측치가 존재 하지 않는거죠? 그리고 y_train에는 피쳐엔지니어링은 진행안하는거죠? y_train은 정답 데이터기때문에 이상치나 결측치가 존재하지 않고 아무런 처리를 하지 않는다고 보면 될까요? 원핫인코딩을 할 때 전체 데이터 셋에 대해서 넣게 되면 pd.get_dummies(c_train) y_train 값은 뺀 뒤에 원핫인코딩을 진행해야 되는 건가요? x_train, x_test 에 대해서만 결측치, 이상치, 피쳐엔지니어링을 진행 한다고 보면 될까요?x_train,x_test 에 대해서 결측치가 존재할 때, 행 삭제를 하면 안되니까 절대 dropna를 사용하면 안된다고 생각하면 될까요? 대신 컬럼 삭제는 가능하지만, x_test의 target 컬럼만 제외하고 컬럼 삭제가 가능하다고 생각하면 되나요? (컬럼삭제를 잘 사용하지 않긴하지만 혹시나 궁금해서 여쭤봅니다 )
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다른문제
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업 3유형 다른 기출을 풀어보고 있는데 선회회귀 문제에서 import statsmodels.formula.api as ols model = ols('weight ~ age + Cholesterol', data=df).fit() model.summary하였더니 TypeError: 'module' object is not callable 이런 오류가 나왔는데 어떤건지 알 수 있나요...?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀분석 및 분산분석 범주형 변수 처리 문의
회귀분석의 경우 ols 함수 사용시 자동으로 원핫 인코딩을 하기에 범주형변수를 C처리를 안해줍니다.하지만 분산분석은 ols 사용시 독립변수가 범주형 변수이면 C처리를 해줘야하는데 이렇게 구분해서 사용하면 되는건가요? 같은 ols함수인데 회귀분석이냐 분산분석이냐에 따라 사용법이 조금 달라 헷갈려서 확인차 문의드립니다. 추가로, 시험환경예시 작업형 유형3 에서는 회귀분석에서 Logit 모형을 사용하는데 범주형 변수를 C처리 했는데 그냥 모두 범주형 변수는 C처리 해주는게 나을까요..?ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
len,sum
선생님 데이터 갯수를 구할때 len이랑 sum을 쓰는데어떤 문제는 sum을 쓰고 언제는 len을 쓰던데 혹시 어떻게 구분해야 할까요?ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
C를 사용하는 법
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요수치형이면서 범주형인 값에 C값을 넣어주면 되는거 맞나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 재구조화 melt 하는 이유
일원분산분석에서 아노바테이블을 이용하여 분석할 때 재구조화하는 이유가 궁금합니다! 이원분산분석에서는 따로 재구조화 할 필요는 없는 건가요!!?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 제출 관련 질문있습니다.
안녕하세요, 선생님.수강생입니다.. 선생님 강의 여러번 반복해서 공부했는데 부디 이번에 꼭 합격하길.... ㅠㅠ한가지 질문이 있어서 글 남깁니다.. 어찌보면 아주 기초적인 질문입니다. 작업형 1유형과 3유형은 제출하는 공간이 따로 있어서 헷갈리지 않는데요~작업형 2유형은 중간 중간 print로 값 체크하고 마지막에는 전부 주석 처리 하는 것까지 이해했습니다. 그렇다면 정말 최종적으로는 submit으로 to_csv('result.csv') 파일 제출까지 하고 제대로 제출했는지 한번 read_csv 해서 확인한 후에는 read_csv 프린트로 확인한 것도 주석 처리 필수인가요? 마지막은 to_csv('result') 로 코드가 끝나야 하는지 궁금합니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
과적합 계산 질문
안녕하세요, 혹시 작업형2에서 과적합을 계산할 때, 검증데이터 분리 후-> 모델학습 후 -> 아래와 같은 코드로 계산하는 것이 맞을까요?계속 train과 과적합이 심한데(train_f1= 0.9, test_f1= 0.7).. 실제 데이터셋을 줄 때는 과적합이 나진 않겠죠? #과적합 평가 # 훈련 세트에서의 예측 및 F1 Score 계산 train_pred = model.predict(x_tr) train_f1 = roc_auc_score(y_tr, train_pred) print("Training F1 Score:", train_f1) # 검증 세트에서의 예측 및 F1 Score 계산 val_pred = model.predict(x_val) val_f1 = roc_auc_score(y_val, val_pred) print("Validation F1 Score:", val_f1)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-4 민맥스스케일링에 대해 다시질문할게용 ㅠㅠ
강의에서 코딩하셨던 민맥스스케일링 코드에서 범주형 수치형데이터 분리없이 바로 X_train[cols]로 써도되나요? )2,. 코딩 옆에 n_train[cols]=scaler.fit_transform[cols] 라고 적혀있었는데 여기서 왼쪽의 n_train[cols]를 n_train으로 바꿔적어도될까요? 안되면 그 이유가 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 질문 드립니다.
안녕하세요. 데이터를 불러오는 것 조차 못하던 제가 지금은 어느 정도 작업을 수행하고 있네요..ㅎ갑사합니다!! 작업형 2번 concat에 관해 여쭙고 싶은게 있어서 질문드립니다. train,test (2개의 데이터가 주어진 경우 / train, test 컬럼에서 내용이 다를 때 인코딩)df=pd.concat([train, test],axis=0) 후 인코딩 하고분리 : train=df[:train,shape[0]].copy() test=df[train,shape[0]:].copy() 이렇게 하는 것은 알고 있습니다. <질문>그러면 데이터가 3개(X_train, Y_train ,test)이렇게 주어진 경우 train=pd.concat([X_train, Y_train],axis=1)로 변경하고 작업을 계속 해도 무방한가요?아니면 다시 분리를 해줘야 하나요? 또 분리를 해야한다면 코드도 궁금합니다!또한, 위에 1번에서는 axis=0을 한게 컬럼이 동일 하기 때문에 행으로 합친것이고 2번에서 axis=1로 한 것은 옆에다(열 쪽으로) 합쳐야 하기 때문에 그런거겠죠?!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문 드립니다!
선생님 안녕하세요! 시험 전 막바지에 질문 드립니다! 그간 질문이 정말 많았음에도 추가 영상도 올려주시고 늘 자세히 알려주셔서 감사합니다!! 🙂 1.작업형2에서 범주형 컬럼의 카테고리수가 다른 경우1. train데이터가 test데이터를 포함 2. test데이터가 train데이터를 포함=> 1번의 경우 레이블인코딩은 그냥 하면되고 2번의 경우 데이터 합친 후 원핫인코딩을 해야 하는것으로 배웠는데 만약 카테고리수가 많다면 카테고리 종류가 다를 것도 감안해서 다 찾아봐야 할까요?? 기출1 문제의 경우엔 우선 train데이터가 test데이터보다 카테고리 수가 더 많아서 1번의 경우라고 짐작하고 기본 레이블 인코딩으로 진행했습니다! 만약 카테고리 종류가 달랐는데 그냥 레이블인코딩을 했다면 에러편 강의에서 나왔듯 에러가 나오고, 그게 아니라면 그냥 진행해도 되는게 맞을까요?! 2.캐글 작업형3의 독립성 문제에서 합격 기대빈도를 계산할 때- 남자의 총합 (100 + 200)과 합격자의 총합 (100 + 130)을 구합니다.- 이를 전체 합계(600)로 나눕니다.라고 적어주셨는데 이거가지고 어떻게 풀어야할지 모르겠습니다..! 3.캐글 작업형3의 회귀문제에서iris에서 Sepal Length와 Sepal Width의 상관계수 계산하고 소수 둘째자리까지 출력하시오 문제입니다.두개의 상관계수를 구하기 위해서df['Sepal Length'].corr(df['Sepal Width'])를 하려고 했는데 이렇게 하면 왜 에러가 날까요?? 4.작업형2를 풀 때 max_depth=5, n_estimators=1000 이런식으로 이 두 파라미터 차이?가 커도 괜찮을까요? 예측해봤을 때 이 숫자가 가장 성능이 좋게되어서 사용하긴 했는데 오버핏될까 하여 여쭤봅니다! 이들보다 숫자를 더 키웠을 때 오히려 성능이 떨어지는 것을 보고 저 숫자에서 멈췄습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험에서 평가까지 제가 코드문을 작성하는건가요?
강의에서 평가는 수험자는 알 수 없는 영역이라고 하셨었는데, 평가 부분도 제가 코드문을 외워서 수행해야 하는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
혹시 타겟값이 object라면 다른 범주형 데이터처럼 인코딩이나 타입 변경을 해줘야 하나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 질문입니다.
안녕하세요, 작업형2 관련 질문드립니다.시간이 부족해서 train_test_split은 생략, 랜덤포레스트만 사용하려고합니다! ㅜ 문제에 roc_auc 가 나오면 분류, predict_proba로 예측,나머지는(회귀,분류 모두) 다 pred로 예측으로 이해했는데 맞을까요?검증데이터 분류 없이 진행할 때, 아래와 같이 넣으려고 합니다. 맞는지 확인 부탁드립니다 :)target = train.pop('타겟 컬럼명') 진행 후,데이터 전처리 시, 스케일링을 진행하지 않는다면 오류가 생기는 경우도 있을까요?문제 없다면 object컬럼 drop, 결측치 처리만 진행하려 합니다! 짧은 시간에 강의로 많은 도움 얻었습니다! 답변도 미리 감사드립니다 !!