묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
저의 코드도 정답 처리로 될까요?? y_test채점 결과 0.789 나왔습니다
import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") cols = train.select_dtypes(include='object').columns from sklearn.preprocessing import LabelEncoder for col in cols: le = LabelEncoder() train[col]=le.fit_transform(train[col]) test[col]=le.transform(test[col]) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop("TravelInsurance", axis=1), train["TravelInsurance"], test_size=0.1, random_state=2022) from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=2022, max_depth=8, n_estimators=600) rf.fit(X_tr, y_tr) y_pred = rf.predict_proba(test) submit = pd.DataFrame({"index":test.index, "y_pred": y_pred[:,1]}).to_csv("990906.csv", index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
궁금해서 문의남깁니다.
챕터 5-2 관련 질문입니다.강의 따라서 그대로 수행했고중간에 RandomRegressor의 경우 강사님께서 훈련을 잘못 적용하신 것 까진 이해를 했습니다.다만 궁금한건 xgboost로 훈련을 한 경우검증데이터로 r2 score를 도출했을 경우엔 0.27로 다른 회귀분석을 하는 경우보다 높게 나왔습니다만,최종적으로 평가하는 y_test와 x_test 모형에서는 결과값이...-0.03400982959617549 라는 비정상적인 값이 나옵니다...올려진 sheets 중 y_test값이 잘못 된것인지...값이 이상하여 문의 댓글 남깁니다. 제가 사용한 코드는 proba = xg.predict(test) y_test = pd.read_csv("y_test.csv") print(r2_score(y_test, proba))였고 하필 강의 말미에도 총 평가점수가 나오진 않아있어 문으드립니다. 답변 기다리겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 정답은 항상 정수형으로 출력?
선생님! 작업형1은 정수형으로 print되야 한다고 해서 항상 print(int( )) 이런 식으로 int를 안에 넣어서 정답을 작성하는 것인가요?예를들어 문제1도 5674 만 나오도록 해야하는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터분석을 위한 파이썬 기초 2 강의와 관련된 질문
안녕하세요. 좋은 강의 감사합니다. 데이터분석을 위한 파이썬 기초 2 강의 부분을 들으면서 질문 사항이 몇개 생겨서 글을 남기게 되었습니다 질문 1번TypeError: list.append() takes exactly one argument (2 given)리스트에서 append 메소드?(=함수?) 사용시 1개 값만 추가가능한데요. 여러개 값?(=원소?)을 한번에 추가하는 메소드? 가 있을까요? 질문 2번딕셔너리에서 키로 값(밸류) 바꾸는 거(예: dict['name'] = '네모')와 유사한 방식으로, 키의 이름(예 'name'을 '이름'으로)을 바꾸는 방법이 있나요?? 질문 3번슬라이싱 연습에서# 마지막 앞 단어 print(listbox[-2])로만 해도 같은 값 나오는데 이렇게 알고 외워도 괜찮나요?마지막 단어 출력하려면 [-1]니까 그거보다 앞이라서 -2로 외우면 편하게 되울거 같아서요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
안녕하세요 캐글 실습중에 문의드립니다.
안녕하세요 강사님캐글에서 script editor type 으로 코드를 실행하면 자꾸 NameError 가 발생합니다.(강사님이 제공해주는 코드를 실행해도 동일합니다.)학습은 notebook 으로 전환해서 수행중인데 뭐가 문제인지 확인 부탁 드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
효율적인 강의 수강 방법이 뭘까요?
안녕하세요 선생님,강의 잘 듣고 있습니다.직접 코드를 작성하며 공부를 하고 있지만, 1주일 동안 모의고사를 제외한 이론파트를 모두 보면서 우선은 코드를 아무것도 보지 않고 완전히 친다기 보단, 전체적인 흐름 위주로 이해하려 했습니다. 내일부터는 모의고사 강의를 보면서 강의 노트에 있는 내용을 바로 칠 수 있도록 계속 반복 학습을 하려고 합니다.이제 실기시험까지 약 한달정도 남았는데요. 이론을 다 보고 나서 이후 모의고사 인강을 계속 보면서 코드를 익숙해질때까지 익히는게 나을지, 아니면 다시 또 이론 처음부터 보는게 나을지 시험 준비와 관련 추가 팁을 여쭙고자 글을 남깁니다. 바쁘시겠지만 보시면 답글 남겨주시면 감사하겠습니다.좋은 강의 만들어 주셔서 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
안녕하세요 작업형 3 체험링크를 들어갔는데 문제 내용이 달라서 문의드립니다.
아래 링크로 들어갔는데 문제내용이 아래와 같이 나와서요... 혹시 아래 링크 해설이나 답을 알 수 있을까요 ? 무례한 부탁일 수 있지만 영상제작도 가능할까용 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 질문입니다..
이와 같이 mode 변수의 클래스 수가 다른데...ct = make_column_transformer((OneHotEncoder(sparse=False), col_cat), (StandardScaler(), col_num))ct.fit(X)X = ct.transform(X)X_te = ct.transform(X_te)print(X.shape)print(X_te.shape)이것을 적용하니...(7468, 37) (3200, 37) 이렇게 컬럼이 동일해졌습니다... make_column_transformer가 컬럼 수를 맞춰주는 기능도 있나요? 이해가 잘 안갑니다..ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse(np.exp(y_val),no.exp(pred)) 작업시 나오는 에러메세지 해결 방법
rmse를 진행하는 부분에서rmse(y_val,pred) 라고 진행하면 문제가 없으나후에 y값에 들어갈 charges 컬럼 데이터에 로그를 씌워 단위 변환한 평가값과 비교하기 위해기존 데이터 평가에 rmse(np.exp(y_val),np.exp(pred))를 씌워보면Found input variables with inconsistent numbers of samples: [161, 268] 혹은Input contains infinity or a value too large for dtype('float64').와 같은 에러가 뜹니다. 혹시 제가 어떤 작업을 놓친 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
최대 최소 스케일링과 , test.pop
스케일링과 test.pop 코드는 반드시 사용해야하나요?저는 스케일링과 cust_id에 대한 test.pop을 안쓰고 모델링을 했는데 저처럼 해도 괜찮나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중분류 확률값 제출에 대해서 질문드립니다!
안녕하세요 선생님 계속 질문드려서 죄송합니다. 다름이 아니라 pred_proba를 test 데이터에 적용하고 제출할때 오류가 발생해서 질문드립니다.y_val_dumm = pd.get_dummies(y_val) pred_proba = model.predict_proba(X_val) print(roc_auc_score(y_val_dumm, pred_proba, multi_class = 'ovo')) ####마지막 제출!! pred_proba = model.predict_proba(test) pd.DataFrame({'id':test_id, 'Seg':pred_proba}) "Per-column arrays must each be 1-dimensional" 오류가 발생합니다. pred_proba의 컬럼을 지정 안해줘서 그런거 같은데 마지막 제출은 어떻게 해야 하나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5-2 작업형 문의
name, host_name은 둘다 3만이 넘는 고윳값 때문데 삭제하는 건 알겠는데 host_name은 9943개인데 삭제하는 이유를 알 수 있을까요? latitude, longitude 얘네는 host_name보다 고윳값이 많은데 삭제하지 않는 이유는 수치형 데이터여서 그런가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라벨 인코더할 때 le = LabelEncoder() 구문을 반복하는 이유가 있나요?
라벨 인코더할 때 le = LabelEncoder() 구문을 반복하는 이유가 있나요?for 문 밖에서 한번 만들어 놓고 계속 쓰면 안되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-3 수업에서 이상치를 제거할 때
X_train = X_train[X_train['age']>0] 위의 코드를 사용해서 이상치를 제거하게 되면 나중에 3-5에서 머신런닝을 시킬때 X_train과 y_train의 길이가 불일치되서 오류를 유발하지 않나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-5 Classification 수업에서요.
왜 처음부터 데이터를 train_test_split 로 나누고 시작하는게 아니라 마지막에 왜 데이터를 나누어서 다시 시작하는 건가요? train_test_split으로 나누지 않고도 X_train과 y_train만으로도 predict_proba는 적용할 수 있지 않나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
numpy 함수에 대해 질문드립니다 선생님...!!
제가 아직 개념이 완전히 잡혀있지 않아서 생기는 궁금증인것같습니다.. import numpy as np 를 하면 numpy 라이브러리를 불러오는걸로 알고있는데요! 그럼 도대체 언제 이 라이브러리를 불러오는건지 정해져있는게 있을까요?어떤 상황에서 불러와야된다...이런게 있는지 궁급합니다.예제 문제들을 풀고있는데 표준편차의 절대값 차이를 출력할때도 numpy를 불러와서 np.abs(a - b) 이렇게 쓰던데...언제는 쓰고 언제는 안쓰는건지 이런 개념이 궁금합니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이번에는 스터디 안하는지 궁금합니다!!
이번에는 스터디 안하는지 궁금합니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경에서 적용했을 때 결과가 잘려서 보입니다 ㅠㅠ
시험환경에서 적용했을 때 결과가 잘려서 보입니다 ㅠㅠ 아래와 같이 예측구간만 나오고 신뢰구간을 확인할 수 없을 때 모두 보고싶으면 어떻게 하나요 ???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수업노트, 링크첨부가 안보입니다
데이터 분석을 위한 파이썬 기초1에서 수업노트에 링크를 첨부해두었다고 하셨는데 수업노트는 어디에 있나요?수업노트,링크를 찾을 수 없습니다.F&Q에서는 화면 오른쪽 상단에 초록색으로 구름모양 아이콘이 있는데 이 강의에서는 찾을 수 없습니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 모의문제 1 - 문제 2 질문있습니다.
강사님.. ㅎㅎ 제가 또 작성했는데 결과값이 다르게 나와서요 ㅜㅜ 한번 검토 부탁드립니다!!제 결과값은 79가 나왔어요! 정답은 56이구요!!# your code import pandas as pd import numpy as np df=pd.read_csv('members.csv') # df.head() # 주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고 해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함. # print(len(df)) # 100 # 결측치가 30% 이상 = 30개 이상 # print(df.isnull().sum()) # f1 - 31개 , f3 -28개, views-4개 확인 # 따라서 f1은 결측치 있는 행 제거, f3은 최빈값으로 값 대체 df['f1'] = df['f1'].dropna() df['f3'] = df['f3'].fillna(df['f3'].mode()[0]) cond = (df['f3'] == 'gold') ans = len(df[cond]) print(ans)