묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅데이터분석기사 기출 3회 작업형1
다른 문제집 질문도 가능 할까요? 문제 풀이 하던 중 답이 다르게 나와 질문드리고 싶어 일단 이렇게 글 올립니🥲강의 다 듣고 빅분기 문제집에 있는 기출 문제를 풀이 하던 중에 기출 3회 작업형1 2번 문제에서 강의에서 해주신 풀이 대로 풀어 보았는데 책에 있는 답이랑 달라서 질문드려요😢 해설에는 76이 나오는데 방법2 처럼 풀이하면 71이 나오네요😭 두개 다른 점이 있나요?? 봤을때 같은 답 구하는게 맞는거 같은데 왜 다른 값이 나오는지 이상해서요다음은 국가별 연도별 인구 10만명당 결핵 유병률 데이터 세트이다. 2000년도의 국가별 결핵 유병률 데이터세트에서 2000년도의 평균값보다 더 큰 유병률값을 가진 국가의 수를 계산하시오.!git clone https://github.com/AnalyticsKnight/yemoonsaBigdata/ # 데이터 불러오기 import pandas as pd df = pd.read_csv("/content/yemoonsaBigdata/datasets/Part3/302_worlddata.csv") df.head() # 방법1(해설) df_2000 = df[df['year']== 2000].drop('year', axis =1) df_2000.index = ['value'] df_2000_T = df_2000.T # print(df_2000_T['value'].mean()) rst_df = df_2000_T[df_2000_T['value'] > df_2000_T['value'].mean()] print(len(rst_df)) # 방법2 df = df.T df.head() m = df[1].mean() print(sum(df[1] > m))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
corr() 실행 안됨
이번에 복습하면서 처음부터 수업 다시 듣고 있는데요.예전엔 corr()함수 오류없었는데, 이번엔 오류가 발생하더라고요. 혹시 상단에 코드 입력이 잘 못 되었나 일일이 다 확인해봤는데도 문제 없었고, 심지어 선생님 기본자료로 돌려봐도 똑같이 오류가 나오네요. corr() 실행 조건이 문자열 항목 있으면 안되게끔 바뀐거 같습니다. 예전에는 문자열 칼럼있어도 알아서 걸어서 계산했는데.... 앞으로 어떻게 사용하면 좋을지 알려주시면 감사하겠습니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df[cond][Reached.on.Time_Y.N]의 의미가 궁금합니다.
감사합니다.cond 조건이 나오고 , 뒤에 또 [] 구문이 나오면 어떻게 연결되는지 궁금합니다. 일단 의도는 디스카운트 10% 넘는 행 중에서, 정시 도착 하는 수라고 이해했는데요.이 두개의 []가 어떤 순서로, 이루어 지는지?이건 두개의 명령문을 합쳐 놓은건지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 작업형2 기출 데이터 관련
2회 작업형2 기출 데이터 다운로드쪽에 train밖에 못찾겠는데.. 혹시 test.csv 파일은 어떻게 찾으면 되나여?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
왜 train 데이터만 fit_transform 하는지요?
안녕하십니까? 계속 궁금해서요.. 왜 train 데이터만 fit_transform 하고test 데이터는 그냥 transform 하는 건지요?test 데이터도 fit_transform하면 어떻게 되는거진요?항상 자세한 설명에 감사드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
왜 정확도가 다르게 나올까요?
같은 data자료, 같은 test_size, 같은 random_state로 하였는데 왜 계속 점수가 다르게 나오는건지 여쭤봐도 될까요?해결했습니다!y_val과 pred 위치에 따라 점수가 달라지네요!이유가 뭔 지 여쭤봐도 될까요? 추가질문 하겠습니다.!영상 속 코드랑 똑같이 입력하였는데 roc 점수가 다르게 나옵니다.. 이유가 뭔가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
fit_transform함수 문의
fit_transform 함수가 여러번나오는데제가 이 함수를 잘 모르겠습니다설명을 부탁드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
프레임과 시리즈구분
안녕하세요대괄호 한번하면 시리즈고 두번하면 프레임이라는게잘 구분이되질 않습니다자세히 설명 부탁드립니다 추가로 보이는건 같은지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀모형 질문
문제2. 에버비엔비 가격은?평가: R_Squared, MAE, MSE, RMSE, RMSLE, MAPE문제에서 #데이터 전처리train = train.drop('id', axis=1)test_id = test.pop('id')target = train.pop('price') a = [ 'name', 'host_id', 'host_name', 'last_review' ]train = train.drop(a, aixs=1)test = test.drop(a, axis=1)train[reviews_per_month] = train[reviews_per_month].fillna(0)test[reviews_per_month] = test[reviews_per_month].fillna(0) #라벨인코딩 cols = train.select_dtypes(include='object').columns from sklearn.preprocessing import LabelEncoderle = LabelEncoder() for col in cols: train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) #train_test_splitfrom sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022) #랜덤포레스트from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor()rf.fit(X_tr, y_tr)pred = rf.predict(X_val) #rmsefrom sklearn.metrics import mean_sqaured_error def rmse(y_val, pred): return mean_squared_error(y_val, pred)**2(질문1)이렇게 했는데 rmse에서 **2까지 입력하면 예측값이 0.xx라고 출력되어야 하지 않나요?**2까지 입력했는데 아무 값도 출력이 안되네요ㅠ그리고 데이터 저장 후에는 price가 406, 160..이렇게 출력됩니다!강사님 풀이에는 295, 155..이던데값이 달라도 괜찮은건가요? (질문2)이후 강의에서 rmse를 from sklearn.metrics import mean_squared_errordef rmse(y_val, pred): return mean_squared_error(y_val, pred)**2로 하시던데 rmsle나 mape도 numpy를 사용하지 않고 간단하게 표현하는 방법이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
대응표본검정관련해서
안녕하세요? 대응표본 검정관련해서요 사피로 검정 전에 있는 귀무가설 u>= 0대립가설 u>0 이라고 되어 있는데요. 보통 이런 경우는 대립가설이 u<0 이 되는거 아닌가요?설명을 듣다보면, 귀무가설이 u<=0 이 아닌지?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
RMSLE 관련 로그 함수관련 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요? 제가 LOG 함수관련해서 조작법이 서툴러서요. RMSLE관련해서 공식을 찾아보니 아래오 같더라구요근데, 강의자료에 작성된 코딩을 보면 11sqrt(np.mean(np.power(np.log1p(y_test) - np.log1p(y_pred), 2))) 와 같습니다. 여기서 np. log1p(t_test) 이 코딩과 위에 공식이 같은건가요. +1이 여긴 반영되어 있는건지 모르겠습니다. 로그관련 설명을 좀 부탁드리겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측값 채우지관련해서
안녕하십니까? 결측값 채우기 중 최빈값 관련해서,,m = X_train['workclass'].mode()[0] 여기서 mode()과 mode()[0]의 차이는 무엇인지요? 즉 [0]의 쓰임이 무엇인지? 다른 중앙값, 평균 등은 이런게 없는데 왜 최빈값만 이런게 뒤에 붙는지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출문제 풀이
인프런 문제를 열심히 풀고 있습니다.7회 기출문제 풀이는 언제 볼수있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라이브러리 및 데이터 불러오기 그리고 EDA 수업내용중에
라이브러리 및 데이터 불러오기 그리고 EDA 수업내용중에15분 36초 경에 보면 남성과 여성의 수를 확인하는데, 그때 남성의 수를 cond_male이라는 변수에 담았기 때문에 len(cond_male) 이렇게만 하면 안되나요? 왜 train[cond_male]이렇게 해주어야 하는지가 궁금합니다. 보통 데이터 프레임 안에서 컬럼을 선택할때 데이터프레임명['컬럼명'] 이런식으로 할때나 사용하는데, 변수로 지정후에도 왜 train으로 감싸나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시계열데이터에서 dt관련
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요? 시계열 자료 강의에서 년월일 등을 추출하는 강의가 있는데요.. 여기서 dt가 갑자기 나와서요.. 이것도 그냥 함수인가요.. 아님 뭐 datetime의 약자 뭐 그런건지요? dt관련해서 이거 뭐하는 함수인지 궁긍합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 6회 작업형 1 질문
3. 연도별로 총 범죄 건수(범죄유형의 총합)의 월평균 값을 구한 후 그 값이 가장 큰 연도를 찾아, 해당 연도의 총 범죄 건수의 월평균 값을 출력하시오. (반올림하여 정수로 출력)문제에서 df['총범죄건수'] = df.iloc[:, 1:7].sum(axis=1)iloc 를 활용해서 열의 합을 구할 때는 sum 괄호 안에 axis=1 이라고 작성을 하는데 result = df.groupby('연도')['총범죄건수'].sum(axis=0)/12연도별로 그룹으로 묶어 행의 합을 구할 때는 sum 괄호 안에 axis=0 이라고 넣으면 오류가 나더라구요! iloc 를 활용해서 합을 구할 때는 sum 괄호 안에 axis 를 작성해도 되지만, groupby 를 활용해서 합을 구할 때는 sum 괄호 안에 axis 를 작성하면 안된다고 외워야 하는 건가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출 질문
5회 기출 작업형 2에서3회 기출 작업형 2에서 강사님께서 풀이하신 방식으로train, test 데이터를 수치형, 범주형으로 나누고 수치형은 robustscaler, 범주형은 dummies를 활용한 후 concat으로 합치려고 했는데요!아래처럼 코딩을 했는데 사진처럼 오류가 발생합니다ㅠㅠ혹시 기출 3회 작업형 2는 회귀모형이 아니기 때문에,기출 3회 작업형 2 풀이 방식을 기출 5회 작업형 2에 활용하지 못하는건가요? import pandas as pdtrain = pd.read_csv("train.csv")test = pd.read_csv("test.csv") n_train = train.select_dtypes(exclude ='object').copyc_train = train.select_dtypes(include ='object').copyn_test = test.select_dtypes(exclude = 'object').copyc_test = test.select_dtypes(include = 'object').copy from sklearn.preprocessing import RobustScalercols = ['year', 'mileage', 'tax', 'mpg', 'engineSize']scaler = RobustScaler()n_train[cols] = scaler.fit_transform(n_train[cols])n_test[cols] = scaler.transform(n_test[cols]) c_train = pd.get_dummies(c_train)c_test = pd.get_dummies(c_test) train = pd.concat([n_train, c_train], axis=1)test = pd.concat([n_test, c_test], axis=1) print(train)print(test)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 작업형 2 질문 cross_val_score 질문 (2)
총 3가지 질문이 있습니다! 교차검증에서 cross_val_score 을 활용하면from sklearn.metrics import f1_score 을 활용하지 않아도 되는 건가요?(scoring='f1_macro' 라고 되어 있어서 train_test_split 과 f1_score 평가를 동시에 진행하는 방식 같은데..맞나요..?) 문제에서 평가 : Macro f1_score 라고 되어 있는데,강사님처럼 교차검증에서 cross_val_score을 활용해도 되고, train_test_split +from sklearn.metrics import f1_score 활용해도 되는건가요? 이전 강의에서f1_score 평가 설명시from sklearn.metrics import f1_scoref1 = f1_score(y_true_str, y_pred, average = 'macro')라고 알려 주셨는데, metrics 를 불러와서 f1_score을 평가하는 것은 train_test_split 을 통해 X_tr, X_val, y_tr, y_val 로 분리한 경우에만 사용할 수 있는 거죠??(2번 질문과 이어짐) ps. 친절한 강의, 답변 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 작업형 2번 cross_val_score 질문
cross_val_score 풀이에서 from sklearn.model_selection import cross_val_scorescores = cross_val_score(rf, train, target, scoring='f1_macro', cv=5)라고 써주셨는데요. from sklearn.model_selection import cross_val_scoreprint(help(cross_val_score))했더니 사진처럼 cross_val_score 활용방법이 안 뜨고 오류만 뜹니다ㅠㅠ scores = cross_val_score(rf, train, target, scoring='f1_macro', cv=5)을 전부 외우고 있어야 하는 건가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경 체험링크 클릭시 오류
섹션 6. 시험환경 체험링크를 클릭하면연결이 비공개로 설정되어 있지 않습니다.공격자가 dataq.goorm.io에서 정보(예: 비밀번호, 메시지, 신용카드 등)를 도용하려고 시도 중일 수 있습니다. 자세히 알아보기NET::ERR_CERT_DATE_INVALID 라고 뜨는데 어떻게 해야 하는건가요?ㅠㅠ