묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pvalue=2.2~
유의수준 0.05보다 크므로 기각역이 커서 귀무가설을 기각할 수 있으므로, 귀무가설 채택(정규분포를 따르지 않는다) 아닌가요?숫자가 축약이 되서 저렇게 표시되었다는 말씀같은데 매번 pvalue를 다시 산출하고 하는 과정이 필요하다는 말씀이실까요?이후 검산에서 0.00000000~2 로 나오는게 있던데 시험에서 이런경우 0.05보다 크다 작다가 아니라 기재하신 {}.format 이런 함수를 꼭 작성해봐야 pvalue를 확실하게 알수있는 건지 궁금합니다 작성하신 코드가 어려워서요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님 한가지만 더 여쭤보고싶습니다!
실제 시험에서 물론 안까먹어야 하겠지만...ㅠㅠ LabelEncoding 적용한 컬럼에, 이후에 그대로 StandardScaling 해도 모델 학습에 성능적으로 문제가 없을까요? 원핫 적용한 컬럼에는 standard 이어서 해도 값 변동이 없을것 같은데 Label 은 혹시 어떻게되는지 궁금합니다..! 물론 시험때는 최대한 안까먹고 Label 했던 컬럼은 빼두고 StandardScaling 을 적용하려고 합니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 3회 작업형 2 csv 파일 저장
똑같이 했는데 오류가 왜 뜨는지 모르겠습니다ㅠ이런건 처음봐서 무슨 오류인지도 모르겠어요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
단순선형회귀 summary 내용중에
단순선형회귀 summary 내용중에 신뢰구간에 대한 부분을 설명을 해주실 때, '이 신뢰구간은 95% 신뢰구간을 나타냅니다' 라고 말씀하셨는데 이는 어떤 정보를 보고 판단할 수 있는건가요? 단순선형회귀 강의 중 2:54
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제1 에서 제출 포맷을 보면
문제들 다시 한번 복습으로 쭉 풀어보고 있는데요!작업형2 모의고사1 에서 제출 형식을 보면 predict_proba 로 해야할것 같은데 영상에서는 predict 로 하셨거든요. 혹시 제가 잘못 이해하고 있는지 문의 드립니다. 추가로, predict_proba 로 해서 1일 확률값을 구하면, roc_auc_score 는 점수가 채점되는데 나머지 accuracy_score, f1_score 같은건 채점이안되더라구요. (오류코드: Classification metrics can't handle a mix of binary and continuous targets) 제가 정상적으로 이해한건지 문의 드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
가설검정풀이 윌콕슨검정 질문
수업 9분 53초 부근,stats.wilcoxon(df['무게']-120 에서 왜 -120 으로 머이너스 부호를 넣는지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9:03 문제3) 결측치가 제일 [많은] 값의 컬럼명이라고 이해해도되나요?
시간 : 9:03 문제3은 '결측치가 제일 큰 값의 컬럼명은?' 이라는 문제인데이를 '결측치가 제일 많은 값의 컬럼명은?'이라고 이해해도 되는거 맞을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 질문입니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 강사님 수업 잘 듣고 있습니다.다름이 아니라 2유형의 경우 기출/모의고사 포함 정답이 정해진 문제가 아니기 때문에 여러 풀이 방법을 보여주신 거 같은데곧 시험을 앞둔 상황에서 제가 능동적으로 코딩하는 것이 어려울 거 같아 해당 영상(작업형2 모의문제 1)처럼 시험 문제를베이스라인/라벨인코딩으로 나누고 모델은 2개 정도만 외워 사용해서 정답을 제출해도 점수를 얻을 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
object 데이터 인코딩 관련 질문
안녕하세요 선생님! object 데이터 인코딩을 할 때, 라벨 인코딩/원핫인코딩을 주로 사용하는 것 같은데각각의 인코딩 방법을 사용하는 경우가 있나요?선생님 풀이에서는 원핫인코딩을 더 많이 쓰시는 것 같던데, 빅분기에서는 원핫인코딩이 좀 더 성능이 잘나와서 그런건지 궁금합니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
자주 활용되는 판다스 예제에 loc 질문있어요
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요replace 는 df로 다시 저장해야하는데 loc는 다시 저장할 필요가 없이 바로 바뀌는 건가요?? 저장을 다시해야하는 기준이 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션 13 작업형 2번 코드 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요좋은 강의 항상 감사드립니다.고민끝에 작업형2번은 이러한 과정으로 진행하려합니다.오류 없이 결과는 나왔는데요.혹시 코드에 문제있는 부분이 있을까요?감사합니다.*수정 아래 코드 추가from sklearn.metrics import f1_score #train.isnull().sum() #test.isnull().sum() #train.head() #test.head() #train.info() #'Gender, Ever_Married Graduated Profession Spending_Score Var_1 train = train.drop("ID", axis=1) target = train.pop('Segmentation') test_ID = test.pop('ID') cols = ['Gender', 'Ever_Married', 'Graduated', 'Profession', 'Spending_Score', 'Var_1'] from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols: train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state = 2023) X_tr.shape, X_val.shape, y_tr.shape, y_val.shape from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state = 2023) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) f1_score(y_val, pred, average='macro') pred = rf.predict(test) submit = pd.DataFrame({ 'ID' : test_ID, 'Segmentation' : pred }) submit.to_csv("0010", index=False) #import pandas as pd #df = pd.read_csv("0010") #df
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 2회 작업형 2 질문입니다.
분리할 때와 평가할 때의 random_state의 값이 2021과 2022로 서로 다른데 어떤 값에 맞춰서 작성해야 되나요? 아니면 둘의 값이 서로 달라도 상관없는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신 버전)
안녕하세요, 더운 날씨에 고생 많으십니다. Q1) 백화점 고객 문제 혹시 csv파일은 따로 없을까요 ??Q2) 문제에서 회원 ID 컬럼 같은 경우는 바로 삭제를 해주는게 좋을까요 ? 물론, 삭제 전/후 비교하면 좋겠지만.. 선생님 의견도 궁금합니당
-
해결됨코딩테스트 [ ALL IN ONE ]
15:52 시간복잡도
강의 문제를 in list로 푸는 경우의 시간복잡도를 O(n^3)라고 하셨습니다. 잘 이해가 가지 않아 질문드립니다. for loop로 n개의 nums 모든 요소 순회 => O(n)list에 대한 in 연산 수행 => O(n)최소 한 번은 수행2번 이상의 경우 while문에서 시간복잡도 계산in 연산 수행의 반복을 while문으로 수행worst case => O(n)[1, 2, 3, 4]의 경우 n-1, n-2, n-3, n-4번 수행이걸 O(n)으로 취급하는건가요? 1.nums의 모든 요소에 대해 항상 while문이 O(n)으로 동작하지 않고 최악의 경우에도 n-1, n-2, n-3, ... 1로 줄어들지 않나요...? 아니면, 2.for loop로 n번 순회하면서while loop는 n-1, n-2, n-3번 수행하게되니두 반복문에 의한 시간복잡도는 등차수열 합의 공식에 근거해 최종적으로 O(n^2)가 되고 이 때 매번 반복하는 in연산도 O(n)이니 최종 시간복잡도는 O(n^3)다. 로 이해하는건가요? 19:47 설명 중어떻게 while이 모든 경우에 n번 수행될 수 있는건지 궁금합니다...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df.mean() 과 mean(df) 같이 나타낼 때 차이가 무엇인가요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요어쩔때 sum(df) 이런식으로 sum 안에 넣을 때도 있고. 어쩔 땐 .sum()으로 표현하던데 둘의 차이가 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
random_state=2022 값은 그냥 시험에서 그냥 사용해도 될까요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요값을 나눌 때 고정하기 위해 사용한다는 것만 알고 값이 어떤 의미를 갖고 있는지 정확히 모르겠습니다. !
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요5회 회귀 문제에서요!평가 지표로 rmse를 사용하는데함수를 사용하지 않고 rmse를 쓰려면 코드를from sklearn.metrics import mean_squared_errormse = mean_squared_error(y_val, pred)print(mse ** 0.5)이렇게 작성해주면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 분류, 예측 문제
안녕하세요 선생님,회귀에서 분류와 예측 유형으로 나뉘는데분류에서는 모델을 만들 떄 아래처럼 예측 시 predict_proba를 활용하고 분류 문제가 아니면 proba를 뺴게 되나요 ?? 문제에서 y값은 0 또는 1 , 또는 확률값일 떄 proba 그 외 y값이 수치형이면 proba 뺴고..제가 생각하는게 맞을까요 ? from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier() rf.fit(X_tr[cols], y_tr) pred=rf.predict_proba(X_val[cols]) roc_auc_score(y_val,pred[:,1])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[캐글, 작업형1 14번 문제] 질문드립니다.!
[문제]city와 f4를 기준으로 f5의 평균값을 구한 다음, f5를 기준으로 상위 7개 값을 모두 더해 출력하시오 .(소수점 둘째자리까지 출력) import pandas as pddf = pd.read_csv("../input/bigdatacertificationkr/basic1.csv")df.head()# city와 f4별 f5의 평균 값 (멀티인덱스 출력)df = df.groupby(['city', 'f4'])[['f5']].mean()print(df)# dataframe 전환 후 상위 7개 출력df = df.reset_index().sort_values('f5', ascending=False).head(7)print(df) 위에는 문제와, 선생님이 작성해주신 코드입니다.!다름아니라 제가 궁금한건 다음과 같이 두 가지입니다! # city와 f4별 f5의 평균 값 (멀티인덱스 출력)df = df.groupby(['city', 'f4'])[['f5']].mean() 첫번째, 여기서 'f5'에 []를 한번 더 쓰신 이유가 데이터프레임형태로 만들기 위해서 쓰신걸까요?두번째, 내림차순정렬 (sort_values)를 쓰기 위해서는 데이터프레임 형태가 되야해서 첫번째에서 'f5'에 []를 한번 떠 쓰셔서 일부러 데이터프레임형태를 만드신걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중선형회귀 상수항
안녕하세요! 강의 너무 알차게 듣고있습니다. 다른게 아니라 다중선형회귀 할 때 상수항을 추가하고 안하고에 따라 R^2값이 변동되던데 무슨 차이가 있는건가요!