묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 2회 문제 3번
'age'컬럼의 이상치를 모두 더하시오! print(sum(df['age']<lower) + sum(df['age']>upper))컬럼의 이상치를 다 더한다는 의미를 이렇게 해석했는데,, # 이상치 age합 print(df[cond1|cond2]['age'].sum())왜 선생님은 '또는'이라는 조건을 사용하셨나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회기출 작업형 1 하드코딩
안녕하세요.섹션12 3회 기출유형 작업형 1 강의 9:54 경에서'하드코딩 하지말라' 라는 메시지가 나오는데,정답이 있는 작업형 1, 3은 정답만 맞으면 만점처리 되는거 아닌가요? 하드코딩을 하거나 눈으로 세거나 혹시 채점하면서코드문(풀이과정)까지 봐서, 답은 맞아도 풀이가 정답이 아니라면 틀릴수도 있나요...?아래 비슷한 질문이 있는거같은데, 응시자 유의사항 보면 정답만 맞추라는 뉘앙스인데,이번 8회 실기는 어떻게 해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
단일표본검정 강의 질문
만약 대립 가설이 반대로 120g보다 크다고 하면,아래 코드처럼 작성하면 되나요? stats.wilcoxon(df['무게'] - 120, alternative='grater')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 랜덤포레스트
선생님! 작업형 2 문제 푸는 방식을 정해서 시험장에서 그 방식대로만 풀려고 하는데 혹시 회귀나 분류 모두 randomforest 하나만 사용해서 학습시켜 예측값을 도출해도 2유형에서 고득점 받는데 무리 없을까요? 다른 모델 식까지 외우기에는 너무 시간이 많이 걸릴거 같아서요 ㅎㅎ 혹시 랜포말고 더 추천하시는 모델이 따로 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치가 만약 생기면
랜덤포레스트 모델을 쓴다는 가정하에 가장 무난한 방법은 뭔가요...? 랜덤포레스트 결측치 계산하는 기능있어서 냅두는게 나을 지아니면 0으로 채우는게 나을지 (둘다 확인해보는게 좋지만, 만약 확인하는 코드 잊었다고 생각하면 가장 무난한게 어떤 방법인지!) 알고싶습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 작업형 2 문제
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 강사님 수업 잘 듣고 있습니다!다름이 아니라 제가 분류/회귀 문제에서 랜덤포레스트와 xgboost 두 가지 코딩을 이용하려 하는데이번 문제의 경우 랜덤포레스트는 돌아가지만 xgboost 같은 경우는 오류가 발생하더라구요모든 데이터에 사용 가능한 줄 알았는데 데이터마다 사용할 수 있는 모델이 한정적인가요?? from xgboost import XGBClassifier model = XGBClassifier() model.fit(X_tr, y_tr) pred = moedl.predict(X_val)위와 같이 실행했고, 아래는 에러코드입니다!ValueError: Invalid classes inferred from unique values of `y`. Expected: [0 1 2 3], got [1 2 3 4]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모의문제 2번
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 선생님! 항상 좋은 강의 제공해주셔서 감사합니다! '작업형2 한가지 방법으로만 푸는 방법' 강의해주신 걸 기반으로 작업형 2 모의문제 2번 코드를 작성해 봤는데요 잘 실행되지가 않습니다.import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') y_test= pd.read_csv('y_test.csv') print(train.shape, test.shape) print(train.head()) print(test.head()) print(train.isnull().sum()) print(test.isnull().sum()) train['price'].describe()#분류는 밸류카운트로 타겟확인 train['reviews_per_month'].sample(10) train.info() # 월간리뷰는 mean으로, 라스트리뷰는 0으로 print(train.head(2)) train.nunique() #name, hostname lastreview 삭제 cols = ['name','host_name','last_review','host_id'] # print('삭제전',train.shape) train = train.drop(cols, axis =1) test = test.drop(cols, axis =1) print('\n삭제한 후', train.shape) train['reviews_per_month'] = train['reviews_per_month'].fillna(0) test['reviews_per_month'] = test['reviews_per_month'].fillna(0) train.isnull().sum() train = train.drop('id',axis = 1) testid = test.pop('id') #테스트아이디는 나중에 쓰니까 # test.head() print(train.isnull().sum()) #test.info() # print(train.shape) # print(test.shape) print(test.info()) print(train.info()) train = pd.get_dummies(train) test = pd.get_dummies(test) set1 = set(train.columns) set2 = set(test.columns) print('------------차이가없어야하는데',set1 - set2,'-----------------') df = pd.concat([train, test], axis=0) train = df.iloc[:len(train), :] test = df.iloc[len(train):, :] print('------------아직도 차이가 있나',set1 - set2,'-----------------') # print(train.shape) # print(test.shape) # print(train.shape, test.shape) # from sklearn.model_selection import train_test_split # print(train.head(2)) # target = train['price'] # target.sample(3) # xtr,xval,ytr,yval = train_test_split(train,target,test_size = 0.2, random_state=2) # print('\n분할 데이터 크기', xtr.shape,xval.shape,ytr.shape,yval.shape) # from sklearn.ensemble import RandomForestRegressor # rf=RandomForestRegressor(random_state=0) # rf.fit(xtr,ytr) # pred = rf.predict(xval) # from sklearn.metrics import mean_squared_error # rmse = mean_squared_error(yval,pred) # rmse = rmse ** 0.5 # rmse # test.head() #from sklearn.metrics import r2_score #y_test = pd.read_csv("y_test.csv") #print('r2도 좋다면',r2_score(y_test, pred)) pred = rf.predict(test) submit = pd.DataFrame({'id':test_id,'output' :pred }).to_csv('왜안만들어지지;;.csv',index=False) submit.to_csv("result.csv", index=False) 이렇게 코드를 작성해봤는데, r2 score로 평가가 안되고, pred = rf.predict(test)에서 train, test의 컬럼수가 차이난다는 오류가 떠서 인코딩 후 concat 활용후 다시 분리하는 작업도 했는데 계속 안돌아갑니다...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 학습모델에 따른 성능차이
안녕하세요 강사님. 작업형2 관련해서 문의 드릴게 있습니다. 작업형2에서는 하나의 학습 모델을 잡고, 여러가지 퓨처엔지니어링, 하이퍼파라미터등을 통해 성능을 끌어 올리는게 더 높은 점수를 받는 것인지, 아니면 여러 학습 모델 ex)랜덤포레스트, lightgbm, linear_model 등을 통해 가장 높은 성능을 보이는 학습 모델을 제출하는 것이 더 높은 점수를 받는 것인지 궁금합니다.각각의 학습 모델마다 성능이 다르게 나와서, 그냥 높은 성능을 보이는 모델을 제출하면 되는걸까요?어디에 중점을 둬야 할 지 모르겠어서 문의 남깁니다.~!! 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출 1과목 문제 2번
안녕하세요? 3회 기출 1과목 문제 2번에서 df = df.T df[2000].mean()이렇게 할때 ValueError: 2000 is not in range 에러가 나고 m = df[2000].mean() 이렇게 하면 에러가 안나는데 어떤 이유인지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
유형2질문입니다.
좋은 영상 잘보며 열공 하고 있습니다. 질문1 . 유형2에서 결과 제출할때 pred 이란 변수를 사용하는데, 어떤 책에선 y_pred 이란 변수를 사용하기도 하더라구요. 문제를 읽었을때 변수명에 대한 설명은 없어보이는데, 정해진 변수명이 있나요? 질문2. 유형2는 성능 측정모형(mse, rmse 등)을 알려주고 있습니다. 제가 만약 분류도, 회귀도 무조건 랜덤포레스트만 사용하겠다고 하면 사실 저 성능 측명하는건 굳이 코드에 안짜도 되지요? 채점답변이 csv 파일만 적절하면 되는게 맞는지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 풀이과정 질문입니다.
전처리, 피처엔지니어링 할 때, 언제 무엇을 해야할지 헷갈립니다.가령 데이터가 어떨 때, 어떤 것을 스케일링 해야하는지 헷갈립니다. 기출문제 풀이에서 스케일링을 한 경우도 있고, 안 한 경우도 있다보니 정리가 잘 안되는 느낌입니다.get_nc_data로 n과 c를 나눴다가 다시 concat으로 합친 경우가 있는가 하면, 어떤 회차에서는 그냥 스케일링도 없이 원핫인코딩만 해버리는 경우도 있어서, 언제 어떤 방식으로 전처리를 해야할지 감이 잘 안옵니다. 저런 기준을 잘 모르겠습니다.또, target열을 value_counts()하는 것은 알겠는데, 어떤 회차에서는 또 이것을 pop하기도 해서, 어떨때 pop을 하는 것인지도 분간이 잘 안갑니다ㅠ로그, 지수 수치 변환도, 수치형 데이터가 어떨 때 하고 어떨 때 안하는지 헷갈립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
1유형 6회 기출
sum(axis=1) 을 항상 꼭 써줘야 하나요?행 방향 열방향이라고 하셨는데지금 행 방향 1행으로 다 더하니까 axis=0 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분산이 다르면 독립표본검정 사용
이제 levene검정을 통해서 분산이 다르면 독립표본검정을 실시하면 되는데,만약 같으면 무엇을 사용해야하나요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
iloc 관련 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 선생님!2회 기출유형 (작업형1) 5분경에 df.iloc를 통해서 10개의 데이터를 대체하는 게 있는데요, 이전에 판다스 강의하실 때 iloc의 경우 :10이면 9까지만 포함되는 걸로 기억하는데 제 기억이 잘못된 걸까요?loc는 [0:9]면 9까지고, iloc는 [0:9]면 8까지로 기억하는데 헷갈리네요 ㅠㅠ 한 번만 다시 설명 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로버스트 스케일링
기출 3회차 2유형문제로버스트 스케일링을 하는 이유가 무엇인가요?처음부터 수치형 데이터인데, 왜 로버스트 스케일링으로 변환해서 머신러닝안에 넣어주는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 작업형1 2번문제
1차이 나는 이유가 있을까요..?정답은 1986 2130144 인데143이 나옵니다. 코딩이 잘못된 부분이 있을까요? import pandas as pd df = pd.read_csv("5-2bmi.csv") df['bmi']=df['Weight']/(df['Height']/100*df['Height']/100) print(df) cond1=df['bmi']>=18.5 cond2=df['bmi']<23 cond3=df['bmi']>=23 cond4=df['bmi']<25 print(len(df[cond1&cond2]),len(df[cond3&cond4])) print(abs(len(df[cond1&cond2])-len(df[cond3&cond4])))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오류 코드와 해결방법요청
too many indices for array: array is 1-dimensional, but 2 were indexed 저장을 하려면 이런 오류가 자꾸뜨는데 확인부탁드립니다. submit=pd.DataFrame({'CLIENTNUM':test_id, 'Attrition_Flag': pred[:,1]})
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출문제 작업형3 마지막 문제 신뢰구간 질문
mean /mean_se/mean_ci_lower/mean_ci_upper/obs_ci_lower/obs_ci_upper/6회 기출문제 작업형3 마지막 문제 신뢰구간 구하는 문제에서 위와 같이 표가 나왔는데요. obs_ci_lower/obs_ci_upper 이 구간이 아니고mean_ci_lower/mean_ci_upper 이 구간 인건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신 버전)에서 첫번째방법으로만 풀어도 점수 다 받을수있나요?
강의명 : 예시문제 작업형2(신 버전) 🆕 updated 2023.11 선생님, 해당강의에서 보여주신 2가지 방법 중,1번째 방법으로만 제출해도 점수를 온전히 다 인정받을수있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 데이터 분리 과정 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 좋은 강의 감사드립니다.작업형2번에서 데이터를 분리할 때 train, target2.train(타겟드랍), train(타켓)이렇게 train을 그대로 쓸 때와 타겟을 없앤 train을 쓸 때의 차이가 헷갈립니다. 그리고 타겟으로 뺄 때외 안뺄때는 편의 차이인지 이유가 있는지 궁금합니다. 감사합니다.