묻고 답해요
143만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-5 Classification의 간단한 결측치 처리 관련
유사 질문 있었는데 답변 확인해도 잘 모르겠어서 다시 질문 드립니다.# 간단한 결측치 처리 X_train = X_train.fillna(0) X_test = X_test.fillna(0)이 부분에서 수치형 외에 범주형에도 0으로 대입되는게 맞나요?아니면 이렇게 해도 문자가 아니기 때문에 범주형에는 대입이 안 되는 건가요?만약 범주형에만 결측치를 처리한다면 다음과 같이 할 수 있나요?X_train = X_train.fillna('X')X_test = X_test.fillna('X')
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
len or sum
이상치 수를 찾으시오, 데이터 수를 구하시오 len과 sum이 헷갈립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형1)
강의에서는 df = df.iloc[:int(len(df)*0.7)] 을 하셨는데 저는 import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/members.csv") # print(df.head(10)) df = df.dropna() # print(df.head(10)) df = df[:int(len(df) * 0.7)] print(df['f1'].quantile(.25))57이렇게 해도 결과값이 맞는데 따로df = df.iloc[:int(len(df)*0.7)] 이걸 꼭 작성해야 하나요? 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
alternative
대응표본 t 검정에서 어느것이 먼저나와야 되나요?대응 표본 t 검정을 통해 B공장 제품들의 rpm이 A 공장 제품의 rpm보다 크다고 말할 수 있는지 검정하라. stats.ttest_rel(A, B, alternative ='less') stats.ttest_rel(B, A, alternative ='greater')기준을 잡을수 있는것이 있을까요? 뒤에 alternative 기입때문에요 앞에거 기준이라고 하시긴 했는데요 앞에를 A로 쓰나, B로 쓰나에 따라 기준이 바뀌면 답도 같을줄 알았는데 틀리더라구요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3유형 학습 범위 문의
케글에 있는 작업형 3유형 문제 중 지지도, 신뢰도, 향상도를 구하는 문제가 있는데요. 본 강의에서는 이 부분은 다루지 않았는데 혹시 알아둬야 할까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 랜덤포레스트 적용
랜덤포레스트 모델 적용 코드에 대해 의문이 생겨 질문 드립니다.from sklearn.ensemble import RandomForestRegressor regressor = RandomForestRegressor() model.fit(X_tr, y_tr) pred = model.predict(X_val) print(r2_score(y_val, pred)) print("r2: ",r2_score(y_val, pred)) print("mae: ", mean_absolute_error(y_val, pred)) print("mse: ", mean_squared_error(y_val, pred)) print("rmse: ", rmse(y_val, pred)) print("rmsle: ", rmsle(y_val, pred)) print("mape: ", mape(y_val, pred))regressor 변수에 RandomForestRegressor()를 대입했는데 그 뒤로는 model 변수만을 가지고 적용시키는 것 같아 이 방법이 맞는 것인지 궁금합니다. 이렇게 model에 적용하면 앞서했던 Lasso 모델과 같은 결과가 나오게 돼서 이상하다고 생각했습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분위수 구하는 문제 질문 있습니다!
'age 컬럼의 3사분위수와 1사분위수의 차를 절대값으로 구하고'에서 1사분위가 0.25이고 3사분위가 0.75라고 알고 있는데, 차이를 구하라고 한다면 보통 두 값을 빼서 구해야 할텐데, 강의 에서는 1사분위(0.25) - 3사분위(0.75)로 계산을 하여 90이라는 값이 나왔는데 3사분위 - 1사분위 하면 값이 다르게 나올텐데 어떻게 구해야하나요? 차는 무조건 1사분위 - 3사분위 일까요?(너무 기본적인 질문이라 죄송합니다.)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출2회 작업형1 문제3
df.head() mean = df['age'].mean() std = df['age'].std() lower = mean - (std*1.5) upper = mean + (std*1.5) cond1 = df['age'] < lower cond2 = df['age'] > upper print(df[cond1|cond2]['age'].sum()) # cond1 = (df['age'].mean() - (df['age'].std())*1.5) > df['age'] # cond2 = (df['age'].mean() + (df['age'].std())*1.5) < df['age'] # print(df[cond1|cond2]['age'].sum()) 어떤 부분에서 틀린걸까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
'numpy.ndarray' 개체에 'columns' 속성이 없습니다
'numpy.ndarray' 개체에 'columns' 속성이 없습니다 이건 무엇이 잘못된것일까요? 2유형 풀다가X_scaled.columns =X_scaled.columns.astype(str) test_scaled.columns =test_scaled.columns.astype(str)에서 에러가 났어요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3, chisquare
1-2. 감기약의 예상 부작용 비율과 항암약의 부작용 관찰값이 통계적으로 유의미하게 차이가 있는지 확인하려 한다. 카이 제곱 검정을 사용하여 검정 통계량을 구하시오.의 문제에서..풀이를 비율로 했더니..실제 풀이에서 ex = [0.1 * 20, 0.05 * 20, 0.15 * 20, 0.7 * 20]이렇게 원래 명 수로 계산한 것와 검정통계량p값이 다 달라지네요...문제에서는 사실 어떤방식으로 명시하진 않았지만,일반적으로 명수로 풀이를 해야하는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모델링 기법 선정
안녕하세요! 작업형2에서 모델링을 선택할때 여러가지 모델을 모두 사용해보고 스코어가 가장 높을 것을 선택해서 제출하는 것으로 이해했습니다!그렇다면 그 여러가지 모델을 선정해야하는데 어떤 모델을 선정해야할까요?분류/회귀에 따라 다른 것으로 알고 있는데 분류/회귀 각각 3~4개정도 추천해주실 수 있으신가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 회귀/분류 구분
'꿀팁 - 작업형2 한가지 방법으로 풀기' 영상으로 기출유형을 공부 중에 있습니다. 랜덤포레스트에서 아래 두가지를 구분하는게 헷갈립니다.회귀 : RandomForestRegressor분류 : RandomForestClassifier기출5회 유형에서 '예측(자동차 가격)'이라는 단어를 보고 회귀를 사용했는데,기출6회 유형에서는 '예측(난방 부하 단계)'이라는 단어가 있지만 분류를 사용하시더라구요. 두 가지를 구분하는 확실한 기준이 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-5 분류 강의에서 마지막 평가 항목
마지막 27분 경에 설명해 주신 평가 항목 코드에서 from sklearn.metrics import roc_auc_score y_test = pd.read_csv("y_test.csv") ans = (y_test['income'] != '<=50K').astype(int) print(len(ans), len(pred)) roc_auc_score(ans, pred[:,1])길이가 서로 맞지 않아 오류가 뜨는데 y_test 대신에 y_val를 쓰는 것이 맞는 걸까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ols 사용시 변수가 많을 경우
변수가 예를들어 30 ~40개 수준으로 많은 경우종속 ~ 변수1 + .......... + 변수 40 이렇게 해줘야 할까요...?너무 낭비가 심한것 같은데.. 다른 방법 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업2 스케일링 관련
안녕하세요.작업2에서 인코딩할때 혹시 모를 경우를 대비해df=concat[train,test]로 합치고 나서 인코딩을 한후 쪼개는 방식으로 진행하고 있는데스케일링의 경우에도 train에서 fit_transform , test에서 transform을 하지 않고df로 합치고 나서 fit_transform만 해도 괜찮을까요?train이랑 df랑 데이터 분포가 다르니까 스케일링 되는 정도도 다를것 같은데합치고 해도 상관없을지 궁금합니다. 감사합니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
교재 예제파일 관련
3유형 연습문제 customer_travel.csv 파일이 없어서 보니선생님 깃허브에서 파일 위치가 수정된 것은 확인했습니다.예제코드에서df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/bigdata_analyst_cert/main/part4/ch8/customer_travel.csv")이 부분도 수정이 되면 더 좋을 것 같습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅데이터 체험환경에서 ctrl c+v 가 안됩니다.
실행결과에서 복사붙여넣기 하려면 단축키가 아니라 직접 해야 되나요? 아니면 어떤 설정을 해야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 제출하는 부분 문제에 주어진 price로 열 설정해야되는거 아닌가요?
에어비앤비 예측하는 문제id,price 34323697,238 29927138,183 120362,234분명 이렇게 제출하라고 했는데 코드에선 id와 output으로 되어 있어서 궁금합니다.. output 대신 price 써야 맞는게 아닌가요?pd.DataFrame({'id':test_id, 'output':pred}).to_csv("00000.csv", index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
가설검정 (t-test)
커리큘럼으로 게시해주신 t-test 영상에서 다룬 귀무가설, 대립가설은 모두 평균에 대한 가설이었습니다.kaggle에서 추가 문제를 풀어보는 중인데, 다음과 같은 문제가 있더군요.# 베스킨라빈스는 쿼트(Quart) 아이스크림의 중앙값이 620g이라고 주장하고 있습니다. # 저는 실제로 이 아이스크림의 중앙값이 620g보다 무겁다고 주장합니다. # 다음은 20개의 쿼트 아이스크림 샘플의 무게 측정 결과입니다. # 이 측정 결과를 바탕으로 나의 주장이 사실인지 비모수 검정(Wilcoxon Signed-Rank Test)을 통해 검정해보십시오. # p-value값을 반올림하여 소수점 둘째 자리까지 계산 # 귀무가설: "베스킨라빈스 쿼트 아이스크림의 중앙값은 620g이다." # 대립가설: "베스킨라빈스 쿼트 아이스크림의 중앙값은 620g보다 무겁다."평균에 대한 검증만 해봤더니 중앙값에 대해선 어떤 코드가 필요할지 몰라서 풀이를 봤는데,평균에 대한 가설검증 코드와 동일하더라고요.import pandas as pd from scipy.stats import wilcoxon # 설정값 med = 620 # Wilcoxon Signed-Rank Test 수행 result = wilcoxon(df["weight"] - med, alternative='greater') p_value = round(result.pvalue, 2) print(p_value)검증하려는 통계값이 다른데, 왜 가설검증 절차는 동일한지 궁금합니다.
-
해결됨Airflow 마스터 클래스
Airflow 데이터 처리
안녕하세요! Airflow Python 오퍼레이터를 공부하다가 궁금한게 있어 질문드립니다!Airflow는 Python 기반이기 때문에 코드 내부에서 데이터 수집, 처리 프로그램을 작성할 수 있습니다.하지만 Airflow는 오케스트레이션 도구입니다. 즉, 데이터 처리를 위한 도구는 아닙니다. 그래서 코드 내에서 저런 데이터 수집, 처리 등 오케스트레이션이 아닌 프로그램을 작성하는것에 대해 지양해야하는것으로 알고 있습니다.궁금한점은 커스텀 Python 오퍼레이터로 데이터 수집, 처리 프로그램을 만들어서 실행할 수 있습니다. Airflow를 동작하는 서버에서 오케스트레이션이 아닌 데이터 수집, 처리를 위한 프로그램이 작동하는것이 괜찮은지 의문이 듭니다.