묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-3 type1 7번 문제
r1 = sum(df.loc[2001] > df.loc[2001].mean()) r2 = sum(df.loc[2003] < df.loc[2003].mean()) 이렇게 푸셨는데. ---------------------------------------------- df = df.T # print(df.head()) # print (sum(df[2001] > df[2001].mean())) # print (sum(df[2003] < df[2003].mean())) print(sum(df[2001] > df[2001].mean()) + sum(df[2003] < df[2003].mean())) 요렇게 풀어도 되죠 ? 그리고 다 공부 했었는데 다시 보니 헷갈려서 그런데 loc 나 iloc 는 행단위로 계산이 되나요 ? 그럼 역으로 열단위로 iloc, loc는 계산 해야 할 때 (axis=1) 로 해줘야 하는 걸까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
과대적합에 대해 궁금합니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요사람들의 실기 후기를 보면 과대적합을 많이 걱정하고 또 과대적합으로 많이 떨어졌던데 검증 수치들을 0.8 ~ 0..9정도로 맞추면 과대적합을 피할 수 있나요? 아니라면 피하는 방법 알려주세요ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2유형에 대해서 질문드립니다!
시험보기전 작업형 2유형을 잘 풀고있는지 의문이 들어 이렇게 문의드립니다..!틀린부분이 없는지 한번 확인해주시면 감사하겠습니다!train과 test의 범주형컬럼의 고윳값 개수가 다를 때는 concat을 한 다음 라벨, 원핫인코딩을 해야한다는 최근 강의를 들었습니다. 그래서 아래와 같이 코드를 진행하였습니다.(2개의 범주형 컬럼의 고윳값이 10개 이상이어서 원핫은 하지 않았습니다.)train과 test의 범주형 컬럼의 고윳값 개수가 같을때도 concat을 사용하여 진행한 뒤 다시 train과 test로 데이터를 나누어 진행해도 괜찮은지 궁금합니다!최종적으로는 어떠한 문제가 나와도 concat을 사용하여 label과 one_hot을 진행해도 되는지 궁금합니다!늦은시간 죄송합니다ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
여러가지 질문
sum을 사용할때 sum(값) 혹은 .sum( ) 이런식으로 두가지로 사용되던데 두가지의 차이가 있나요?sum 에서 어떤 경우에는 합을, 어떤 경우에는 개수를 셀때 사용하던데 각각 어떤 경우에 보통 사용되는지 혹시 예시 코드를 알려주실수 있을까요? 원핫인코딩을 할 때 object 값만 넣는게 아니라 보통 전체 데이터셋을 넣어주나요? 만약에 object 값만 넣었을때랑 전체 데이터셋을 넣었을 때랑 차이가 있을까요?관찰값과 기대값을 구분하는 법을 잘 모르겠습니다..! 관찰값과 기대값의 리스트 순서를 동일하게 맞추기 위해서 sort를 진행하는 건가요?만약에 관찰값과 기대값의 순서가 다를 경우 결과에 크게 영향을 미칠까요?문제를 보고 어떤부분을 봐야 적합도 검정인지 어떻게 알 수 있을까요? 문제를 보았을 때 정확히 무엇을 묻는(어떤 방식으로 풀어야하는지) 문제인지 구분하기가 힘든 것 같습니다.. 적합도 검정뿐만 아니라 회귀분석/분산분석/ 독립성 검정 문제에서 정확히 어떤 부분을 보고 회귀 분석이다! 아니면 독립성 검정이다! 를 알 수 있을까요? 개념이 정확히 정리가 안된 것 같은데 .. 문제를 보고 구분하는 방법을 알려주시면 감사하겠습니다.. ㅜㅠgroupby(~~).mean() 형태로 많이 쓰이던데 mean 말고 다른 것도 사용할 수 있는지, mean 밖에 안되는지 궁금합니다. 다른 것도 사용할 수 있으면 어떤게 있는지 알려주세요! 질문이 너무 많네요..!! 답변 부탁드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회기출 유형 작업형 2번 질문있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 아래 코드에서y_test 는 0,1,0 등의 값이고pred 는 proba 확률값인데 저렇게 평가점수를내는것도 가능한가요?y_test = pd.read_csv("y_test.csv") y_test roc_auc_score(y_test, pred)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회기출 유형 작업형 2번 질문있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요age 칼럼의경우 20대 30대 40대 이렇게 나누는 이유가있을까요?또 그렇게 범주형으로 나누려면 어떻게 코드를작성해야할지 궁금합니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[], [[]] 차이
df = df.groupby(['city', 'f4'])['f5'].mean()df = df.groupby(['city', 'f4'])[['f5']].mean() 위 코드와 아래 코드에 [], [[]]의 차이가 있는데 둘다 실행은 되지만 그 차이를 알고 싶습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션5. 문제1
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요아래 코드 실행시, RandomForestRegressor' object has no attribute 'predict_proba'에러가 발생하는데, 원인이 무엇인지궁금합니다. # data 불러오기import pandas as pdtrain = pd.read_csv('train.csv')test = pd.read_csv('test.csv')y_test = pd.read_csv('y_test.csv')# EDAtrain.shape# 전처리#test.isnull().sum() # 피처엔지니어링cols = train.select_dtypes(include = 'O').columns#train = train.drop(cols, axis = 1)#test = test.drop(cols, axis = 1)# 라벨 인코딩from sklearn.preprocessing import LabelEncoderfor col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])train = train.drop('CLIENTNUM', axis = 1)test_id = test.pop('CLIENTNUM')# 검증데이터 분리from sklearn.model_selection import train_test_splitx_tr,x_val, y_tr, y_val = train_test_split(train.drop('Attrition_Flag', axis = 1), train['Attrition_Flag'], test_size = 0.2, random_state= 2022) # 모델, 평가from sklearn.ensemble import RandomForestRegressorrd = RandomForestRegressor()rd.fit(x_tr, y_tr)pred = rd.predict(x_val) # 예측, 제출pred = rd.predict_proba(test)submit = pd.DataFrame({ 'CLIENTNUM' : test_id, 'Attrition_Flag' : pred[:, 1]})submit.to_csv('0000.csv', index = False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
반올림 조건
작업형3에서 반올림round 함수를쓸즐몰라서 코드는반올림없이 결과를 출력하고 정답기입은 눈으로 맞게했다면 채점은 어떻게 되나요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 예시문제 구버전
작업형3 예시문제 구버전에서지금 문제론궈무가설이 치료 후 효과있다아닌지요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회기출 유형 작업형 2번 질문있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요, 선생님 강의와 동일하게 전처리 및인코딩 후 결과값을 출력했는데 강의와 제 답의 pred[:,1] 값이 차이가 나는데 , roc_auc_score 값은0.72 정도로 잘 나옵니다. 말씀하신것처럼평가는 제출된 csv로 한다고 했을떄 확률값이다른건 자연스러운 현상일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 라벨 인코딩 질문입니다!
이전에 강의하실 때 라벨 인코딩 없이 먼저 예측값을 보고 이후에 라벨 인코딩을 진행했었는데 오브젝트들이 있으면 라벨 인코딩을 처음부터 진행하는게 모델 성능에 확실히 좋은건가요?아니면 선생님처럼 인코딩 없이 진행 후 다시 인코딩을 진행하는게 비교하기 더 좋은가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형 변수
A를 drop하게 되면 A에 대한 회귀계수는 해당 과정에서 얻지 못하는 건가요?혹시 A에 대한 회귀계수가 얻고싶을땐 다른 것을 drop해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 작업형1
마지막 3번에서 풀이방식중에df['연도'] = df['날짜'].str[:4] 이건 어떻게 하겠다는 뜻인가용?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
dir 로 ols 찾는 법
시험 환경에서 dir로 ols 찾는 법이 궁금합니다.이것저것 다 해보왔는데, 시험환경에서 statsmodels 하위로 진행이 안되네요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경에서!
# 데이터 파일 읽기 예제import pandas as pdtrain = pd.read_csv("train.csv")test = pd.read_csv("test.csv")선생님!이건 외울필요없이 무조건 주어지는거죠?그럼 바로 train.head()해서 데이터 확인하면 되는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 / 작업형1 / 문제3 / groupby할때 12로 나누는 이유
월 중간중간 빼먹은 월이 있으면 12로 나누어야 하는게 아니라 연도별로 groupby할때 count도 구해서 count로 나누어야 하는거 아닌가요? 똑같은 데이터인 거 같은데 답이 달라서 여쭤봅니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀 분류
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요시험장에서 회귀 분류 구별하는 법이 무엇이 있나요? 조금 헷갈리네요rmse mse 요런거로 평가하라하면 회귀f1, recall, precision 이런거는 분류로 생각하면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
lightgbm과 labelencoder, one_hot에 대해서 질문이 있습니다!
모든 시험장의 시험환경에서 lightgbm 사용이 가능할까요?? 혹시 버전에 따라서 사용이 불가능한 곳이 있지 않을까 걱정되어 질문합니다! 인코딩 작업을 할 때 모든 범주형 컬럼을 labelencoder 하거나 아니면 one_hot을 하는게 좋을까요..? 아니면 선생님께서 알려주신대로 종류가 10개 이하인 컬름은 one_hot을 하고 10개 이상인 컬럼은 label작업을 하는게 좋을까요..? 머리가 너무 복잡하여 하나의 방법으로 정해서 시험치러 가고 싶은데 어떤걸 선택해야할지 고민입니다.. 여기에 대해 답변해주시면 감사하겠습니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 기출3회 문제3번 질문입니다
안녕하세요! 기출 3회 작업형1 - 문제3번아래와 같이 작성했고 'f1'이라는 값을 얻었습니다. 이 풀이도 가능한건지 궁금합니다! 그리고 제출방식이 변경돼서 값만 적으면 되는데,df.isnull().sum() 으로 확인만하고 답 작성을 해도 감점이 없을까요?