묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 분리
작업형2 에서 심장마비 확률 문제였는데요여기서 데이터 전처리를 할때 X_train.drop('id' , axis =1)X_test.pop('id)' 를 하고 데이터 분리할때 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop('output', axis=1), train['output'], test_size=0.15, random_state=2022)이렇게 하신다고 했는데 위에서는 id를 드롭하고 분리할대는 'output'을 drop 하는건가요? 그리고 test는 왜 분리 하지 않는지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 예시문제 구 버전도 공부 해야 할까요 ?
작업형 3 구 버전도 공부해야 할까요 ? 아니면 신 버전만 공부 해도 될까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
답안 작성 관련 질문있습니다!
안녕하세요, 강의 잘 듣고 있습니다! 다름이 아니라 예전에 시험 응시 전략 강의를 듣는데 거기서'특정값 임의 대입 출력하지 말아라' 다 오답 처리 된다 라는 말씀을 하셨거든요. 그 때 이해한 게 만약 pvalue를 출력하고 싶으면 아래에서 b처럼 적지 말고 a처럼 적으라는 건가요? 설령 프린트문을 이용해서 pvalue가 0.00006인걸 확인해도요? result = stats.ttest_rel(df['bp_after'], df['bp_before'], alternative="less") print(round(result.statistic,2)) print(0.00006) 그리고 예시문제 작업형3(구버전) 강의에서 (c)번 문제 내용 중 하나가, 유의수준 0.05하에서 가설검정의 결과를 (채택/기각) 중 하나를 선택하시오. 이건데요, print('기각') 이런 게 안 된..다는거죠? 그 시험 문제에 체크하는 칸이 따로 있는 건가요? 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증 데이터 분리시
검증 데이터 분리 시 타겟하는 컬럼을 왜 빼는지 잘 모르겠습니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분산분석 관련해서 질문이 있습니다 !
분산분석에서 정규성을 만족하지 못하면 kruskal 사용하는 건 알겠습니다 ! 근데 등분산성을 만족하지 못할 때는 어떻게 하나요 ?ttest 처럼 등분산 파라미터가 없는 것 같아서용..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이렇게 풀어도 가능한가요? (2가지 방법으로 해보았습니다)
import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") cols = train.select_dtypes(include = 'object').columns from sklearn.preprocessing import LabelEncoder for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop('Segmentation', axis=1), train['Segmentation'], test_size=0.1, random_state=2022) from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier() rf.fit(X_tr, y_tr) pred = rf.predict(test) submit=pd.DataFrame({'ID':test["ID"],'Segmentation':pred}).to_csv("003000000.csv", index=False) import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') n_train = train.select_dtypes(exclude = "object").copy() c_train = train.select_dtypes(include='object').copy() n_test = test.select_dtypes(exclude = "object").copy() c_test = test.select_dtypes(include='object').copy() cols1 = ['Age', 'Work_Experience','Family_Size'] from sklearn.preprocessing import RobustScaler rs = RobustScaler() n_train[cols1] = rs.fit_transform(n_train[cols1]) n_test[cols1] = rs.transform(n_test[cols1]) cols2 = ['Gender','Ever_Married','Graduated','Profession', 'Spending_Score', 'Var_1'] # 라벨 인코딩 from sklearn.preprocessing import LabelEncoder for col in cols2: le = LabelEncoder() c_train[col] = le.fit_transform(c_train[col]) c_test[col] = le.transform(c_test[col]) # 원핫 인코딩 # c_train = pd.get_dummies(c_train, columns = cols2) # c_test = pd.get_dummies(c_test, columns = cols2) # train = pd.concat([n_train, c_train], axis=1) # test = pd.concat([n_test, c_test], axis=1) # from sklearn.model_selection import train_test_split # X_tr, X_val, y_tr, y_val = train_test_split(train.drop('Segmentation', axis=1), train['Segmentation'], test_size=0.1, random_state=2022) from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier() rf.fit(X_tr, y_tr) pred = rf.predict(test) submit=pd.DataFrame({'ID':test["ID"],'Segmentation':pred}).to_csv("002000000.csv", index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
표준화 스케일링 결과가 민맥스와 동일하게만 나옵니다.
# 표준화 StandardScaler (Z-score 정규화, 평균이 0 표준편차가 1인 표준 정규분포로 변경)n_train, n_test, c_train, c_test = get_nc_data() # 데이터 새로 불러오기from sklearn.preprocessing import StandardScalerdisplay(n_train.head(2))n_train[cols] = scaler.fit_transform(n_train[cols])n_test[cols] = scaler.transform(n_test[cols])display(n_train.head(2))안녕하세요. 스케일링에서 민-맥스 스케일링과 표준화 스케일링을 차례대로 수행했습니다. 위 코드를 실행하기 전에 말씀하신 것처럼 새로 불로오기도 했구요. 그런데 표준화 스케일링의 결과가 민-맥스 스케일링과 완전히 동일하게 출력됩니다. 즉, -마이너스 값이 전혀 없이 전부 민맥스처럼 0~1사이 값만 나옵니다.데이터 새로 불러오기를 하고, 위 표준화 스케일링을 실행해도 민맥스 스케일링의 값이 출력되는 이유는 무엇일까요? *질문 작성후 로버스트 스케일러 설명 부분에서 스케일러를 지정하기를 말씀하셔서 보니까 스케일러 불러오기를 안했네요. 스스로 해결이 되었습니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 문제 질문!
작업형 2번에서 예측해야하는 컬럼의 값이 0 또는 1인경우0인지 또는 1인지 (2진분류)를 예측하는 것과0일 확률 또는 1일 확룰을 구하는 것의 차이점이 무엇일까요?작성하는 코드가 다른건가요?! 섹션11 작업형 2번 강의를 듣다가 궁금해졌습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
타깃 데이이터 유형 질문입니다.
안녕하세요..ㅎ분류 문제에서 타깃 데이터가 수치형으로 표기 되어 있으면, 문자형으로 변환하지 않고 그냥 사용하나요? 기출 4회 2유형 문제에서 타깃이 1~4로 되어 있는데, 이것을 object로 변환해서 처리하니까, 오히려 에러가 나오네요? (randomforestclassifier 사용시)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
구름 테스트 환경 실행에 실패하였습니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 그대로 복붙했는데 밑에 프로세스 실행되는것도 없이 그냥 바로 실행에 실패했습니다, 코드를 확인하라고 뜨는건 뭔가요,,,
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형3 예시문제] 문제 설명 부탁드립니다
소문제 3번 문제가 이해되지 않습니다. 로지스틱 회귀모형에서 변수가 한 단위 증가한다는 것의 의미와 왜 np.exp를 사용하는지 추가 설명 부탁드립니다ㅜㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 7/8(섹션2 ) 강의자료 어딨나요?
강의 7/8(섹션2 ) 강의자료 어딨나요? 코드 일일이 타이핑하고 있는데, 오류가 자꾸 나네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
저의 코드도 정답 처리로 될까요?? y_test채점 결과 0.789 나왔습니다
import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") cols = train.select_dtypes(include='object').columns from sklearn.preprocessing import LabelEncoder for col in cols: le = LabelEncoder() train[col]=le.fit_transform(train[col]) test[col]=le.transform(test[col]) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop("TravelInsurance", axis=1), train["TravelInsurance"], test_size=0.1, random_state=2022) from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=2022, max_depth=8, n_estimators=600) rf.fit(X_tr, y_tr) y_pred = rf.predict_proba(test) submit = pd.DataFrame({"index":test.index, "y_pred": y_pred[:,1]}).to_csv("990906.csv", index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
궁금해서 문의남깁니다.
챕터 5-2 관련 질문입니다.강의 따라서 그대로 수행했고중간에 RandomRegressor의 경우 강사님께서 훈련을 잘못 적용하신 것 까진 이해를 했습니다.다만 궁금한건 xgboost로 훈련을 한 경우검증데이터로 r2 score를 도출했을 경우엔 0.27로 다른 회귀분석을 하는 경우보다 높게 나왔습니다만,최종적으로 평가하는 y_test와 x_test 모형에서는 결과값이...-0.03400982959617549 라는 비정상적인 값이 나옵니다...올려진 sheets 중 y_test값이 잘못 된것인지...값이 이상하여 문의 댓글 남깁니다. 제가 사용한 코드는 proba = xg.predict(test) y_test = pd.read_csv("y_test.csv") print(r2_score(y_test, proba))였고 하필 강의 말미에도 총 평가점수가 나오진 않아있어 문으드립니다. 답변 기다리겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 정답은 항상 정수형으로 출력?
선생님! 작업형1은 정수형으로 print되야 한다고 해서 항상 print(int( )) 이런 식으로 int를 안에 넣어서 정답을 작성하는 것인가요?예를들어 문제1도 5674 만 나오도록 해야하는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터분석을 위한 파이썬 기초 2 강의와 관련된 질문
안녕하세요. 좋은 강의 감사합니다. 데이터분석을 위한 파이썬 기초 2 강의 부분을 들으면서 질문 사항이 몇개 생겨서 글을 남기게 되었습니다 질문 1번TypeError: list.append() takes exactly one argument (2 given)리스트에서 append 메소드?(=함수?) 사용시 1개 값만 추가가능한데요. 여러개 값?(=원소?)을 한번에 추가하는 메소드? 가 있을까요? 질문 2번딕셔너리에서 키로 값(밸류) 바꾸는 거(예: dict['name'] = '네모')와 유사한 방식으로, 키의 이름(예 'name'을 '이름'으로)을 바꾸는 방법이 있나요?? 질문 3번슬라이싱 연습에서# 마지막 앞 단어 print(listbox[-2])로만 해도 같은 값 나오는데 이렇게 알고 외워도 괜찮나요?마지막 단어 출력하려면 [-1]니까 그거보다 앞이라서 -2로 외우면 편하게 되울거 같아서요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
안녕하세요 캐글 실습중에 문의드립니다.
안녕하세요 강사님캐글에서 script editor type 으로 코드를 실행하면 자꾸 NameError 가 발생합니다.(강사님이 제공해주는 코드를 실행해도 동일합니다.)학습은 notebook 으로 전환해서 수행중인데 뭐가 문제인지 확인 부탁 드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
효율적인 강의 수강 방법이 뭘까요?
안녕하세요 선생님,강의 잘 듣고 있습니다.직접 코드를 작성하며 공부를 하고 있지만, 1주일 동안 모의고사를 제외한 이론파트를 모두 보면서 우선은 코드를 아무것도 보지 않고 완전히 친다기 보단, 전체적인 흐름 위주로 이해하려 했습니다. 내일부터는 모의고사 강의를 보면서 강의 노트에 있는 내용을 바로 칠 수 있도록 계속 반복 학습을 하려고 합니다.이제 실기시험까지 약 한달정도 남았는데요. 이론을 다 보고 나서 이후 모의고사 인강을 계속 보면서 코드를 익숙해질때까지 익히는게 나을지, 아니면 다시 또 이론 처음부터 보는게 나을지 시험 준비와 관련 추가 팁을 여쭙고자 글을 남깁니다. 바쁘시겠지만 보시면 답글 남겨주시면 감사하겠습니다.좋은 강의 만들어 주셔서 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
안녕하세요 작업형 3 체험링크를 들어갔는데 문제 내용이 달라서 문의드립니다.
아래 링크로 들어갔는데 문제내용이 아래와 같이 나와서요... 혹시 아래 링크 해설이나 답을 알 수 있을까요 ? 무례한 부탁일 수 있지만 영상제작도 가능할까용 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 질문입니다..
이와 같이 mode 변수의 클래스 수가 다른데...ct = make_column_transformer((OneHotEncoder(sparse=False), col_cat), (StandardScaler(), col_num))ct.fit(X)X = ct.transform(X)X_te = ct.transform(X_te)print(X.shape)print(X_te.shape)이것을 적용하니...(7468, 37) (3200, 37) 이렇게 컬럼이 동일해졌습니다... make_column_transformer가 컬럼 수를 맞춰주는 기능도 있나요? 이해가 잘 안갑니다..ㅠㅠ