묻고 답해요
143만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험장 답 제출 관련문의
안녕하세요,질문이있습니다.예를들어 유형1 같은경우어떤 값이 무엇이냐? 소수점 3자리까지 구하라 이렇게 제시가되는데요 이과정에서 저의 코드는 어떤 코드로 진행하는것이 아닌제가 그냥 df.head()를 통해 보고그값을 눈으로 찾아 그걸 이용해도 상관없는지,또 답을 제출할때도 표를 보고나서그냥 제 눈으로 찾아서 혹은 제스스로 반올림을 직접해서답을 제출해도 되는지 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 결과 질문입니다. (에어비앤비)
데이터 전처리에서 test_id의 데이터가 9779개이고,검증 데이터 분리에서 X_val의 데이터가 5868개입니다. 행의 개수가 맞지 않아서 오류가 발생하는데, 어떻게 해결해야 할까요? 'id' 컬럼을 pop 하고, 검증 데이터를 분리하면 아래와 같이 행 수가 줄어듭니다. 그리고 랜덤 포레스트로 pred를 예측하는데요. X_val 값이 들어가는 게 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
object 컬럼명 선택
3-6 에서 object 컬럼명을 선택할 때 이렇게 하셨는데,cols = train.select_dtypes(include="object").columns 3-4에서 보여주신 이 식도 같이 쓸 수 있는 건가요?cols = list(X_train.columns[X_train.dtypes == object])
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출 작업형1 2번문제
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요5회 기출 작업형1 2번문제에 제곱하는 경우 두번 나눈값과 **2한 값이 결과에 영향을 미치는데 점수에 영향이 있을까요?(df['Height']/100)**2
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 문제 질문
안녕하세요현재 인강 다 듣고 기출문제 풀면서 작업형2를 공부중인데요.랜덤포레스트 결과가 안나오고 자꾸 아래 체크박스가 자꾸 뜹니다.혹시 해당 코드를 없애는 해결방법이 따로 있을 지 여쭤봅니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
답안 제출할 때 질문입니다.
X_tr, X_val, y_tr, y_val 로 나누고,model.fit(X_tr,y_tr) 로 학습을 시키고,model.predict(X_val) 로 검증을 하는데요.. 최종 제출할 때에model.fit(train, target) 로 학습을 시키고,model.predict(test) 로 제출을 하는게 나을까요?아니면model.fit(X_tr,y_tr) 로 학습을 시키고,model.predict(test) 로 제출을 하는게 더 나을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션5 - 모델링 및 평가(회귀) 강의에서 평가 시 pred 변환
강의 마지막 성능을 평가하는 과정에서 y_test['charges']와 pred의 rmse를 비교하는 것이 아닌 y_test['charges']과 np.exp(pred)의 성능을 비교해야 맞는 것 아닌가요?log변환 후 학습을 진행했기에 계속 변환값을 예측값으로 말씀하시다가 마지막에는 변환 없이 평가하길래 질문 남깁니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pred와 predict_proba
분류는 predict와 predict_proba 둘 중 하나 선택회귀는 predict위와 같은 것으로 알고 있습니다predict_proba는 roc_auc를 물을 때 사용한다.결과값이 확률일때 사용한다두 가지 설명을 들엇던것 같은데roc_auc를 물을때는 그럼 결과값이 무조건 확률인건가요 ??f1_score나 정확도를 묻는 결과값이 확률값으로 안나오는건가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험을 앞두고 2유형 답안 최종 제출 코드 질문!
2유형 답안 최종 제출할 때, 이렇게 4줄로 끝내려고 합니다이렇게 4줄만 쓰면 답안제출+답안확인 끝나는거 맞겠죠?2유형에서 감점될까봐 너무 걱정되네요(문제는 올려주신 케글 문제 중 하나입니다) pred = rf.predict(test)result = pd.DataFrame({'SalePrice' : pred})result.to_csv('result.csv' , index=False)pd.read_csv('result.csv')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3-5 Classification의 간단한 결측치 처리 관련
유사 질문 있었는데 답변 확인해도 잘 모르겠어서 다시 질문 드립니다.# 간단한 결측치 처리 X_train = X_train.fillna(0) X_test = X_test.fillna(0)이 부분에서 수치형 외에 범주형에도 0으로 대입되는게 맞나요?아니면 이렇게 해도 문자가 아니기 때문에 범주형에는 대입이 안 되는 건가요?만약 범주형에만 결측치를 처리한다면 다음과 같이 할 수 있나요?X_train = X_train.fillna('X')X_test = X_test.fillna('X')
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
len or sum
이상치 수를 찾으시오, 데이터 수를 구하시오 len과 sum이 헷갈립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형1)
강의에서는 df = df.iloc[:int(len(df)*0.7)] 을 하셨는데 저는 import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/members.csv") # print(df.head(10)) df = df.dropna() # print(df.head(10)) df = df[:int(len(df) * 0.7)] print(df['f1'].quantile(.25))57이렇게 해도 결과값이 맞는데 따로df = df.iloc[:int(len(df)*0.7)] 이걸 꼭 작성해야 하나요? 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
alternative
대응표본 t 검정에서 어느것이 먼저나와야 되나요?대응 표본 t 검정을 통해 B공장 제품들의 rpm이 A 공장 제품의 rpm보다 크다고 말할 수 있는지 검정하라. stats.ttest_rel(A, B, alternative ='less') stats.ttest_rel(B, A, alternative ='greater')기준을 잡을수 있는것이 있을까요? 뒤에 alternative 기입때문에요 앞에거 기준이라고 하시긴 했는데요 앞에를 A로 쓰나, B로 쓰나에 따라 기준이 바뀌면 답도 같을줄 알았는데 틀리더라구요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3유형 학습 범위 문의
케글에 있는 작업형 3유형 문제 중 지지도, 신뢰도, 향상도를 구하는 문제가 있는데요. 본 강의에서는 이 부분은 다루지 않았는데 혹시 알아둬야 할까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 랜덤포레스트 적용
랜덤포레스트 모델 적용 코드에 대해 의문이 생겨 질문 드립니다.from sklearn.ensemble import RandomForestRegressor regressor = RandomForestRegressor() model.fit(X_tr, y_tr) pred = model.predict(X_val) print(r2_score(y_val, pred)) print("r2: ",r2_score(y_val, pred)) print("mae: ", mean_absolute_error(y_val, pred)) print("mse: ", mean_squared_error(y_val, pred)) print("rmse: ", rmse(y_val, pred)) print("rmsle: ", rmsle(y_val, pred)) print("mape: ", mape(y_val, pred))regressor 변수에 RandomForestRegressor()를 대입했는데 그 뒤로는 model 변수만을 가지고 적용시키는 것 같아 이 방법이 맞는 것인지 궁금합니다. 이렇게 model에 적용하면 앞서했던 Lasso 모델과 같은 결과가 나오게 돼서 이상하다고 생각했습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분위수 구하는 문제 질문 있습니다!
'age 컬럼의 3사분위수와 1사분위수의 차를 절대값으로 구하고'에서 1사분위가 0.25이고 3사분위가 0.75라고 알고 있는데, 차이를 구하라고 한다면 보통 두 값을 빼서 구해야 할텐데, 강의 에서는 1사분위(0.25) - 3사분위(0.75)로 계산을 하여 90이라는 값이 나왔는데 3사분위 - 1사분위 하면 값이 다르게 나올텐데 어떻게 구해야하나요? 차는 무조건 1사분위 - 3사분위 일까요?(너무 기본적인 질문이라 죄송합니다.)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출2회 작업형1 문제3
df.head() mean = df['age'].mean() std = df['age'].std() lower = mean - (std*1.5) upper = mean + (std*1.5) cond1 = df['age'] < lower cond2 = df['age'] > upper print(df[cond1|cond2]['age'].sum()) # cond1 = (df['age'].mean() - (df['age'].std())*1.5) > df['age'] # cond2 = (df['age'].mean() + (df['age'].std())*1.5) < df['age'] # print(df[cond1|cond2]['age'].sum()) 어떤 부분에서 틀린걸까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
'numpy.ndarray' 개체에 'columns' 속성이 없습니다
'numpy.ndarray' 개체에 'columns' 속성이 없습니다 이건 무엇이 잘못된것일까요? 2유형 풀다가X_scaled.columns =X_scaled.columns.astype(str) test_scaled.columns =test_scaled.columns.astype(str)에서 에러가 났어요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3, chisquare
1-2. 감기약의 예상 부작용 비율과 항암약의 부작용 관찰값이 통계적으로 유의미하게 차이가 있는지 확인하려 한다. 카이 제곱 검정을 사용하여 검정 통계량을 구하시오.의 문제에서..풀이를 비율로 했더니..실제 풀이에서 ex = [0.1 * 20, 0.05 * 20, 0.15 * 20, 0.7 * 20]이렇게 원래 명 수로 계산한 것와 검정통계량p값이 다 달라지네요...문제에서는 사실 어떤방식으로 명시하진 않았지만,일반적으로 명수로 풀이를 해야하는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모델링 기법 선정
안녕하세요! 작업형2에서 모델링을 선택할때 여러가지 모델을 모두 사용해보고 스코어가 가장 높을 것을 선택해서 제출하는 것으로 이해했습니다!그렇다면 그 여러가지 모델을 선정해야하는데 어떤 모델을 선정해야할까요?분류/회귀에 따라 다른 것으로 알고 있는데 분류/회귀 각각 3~4개정도 추천해주실 수 있으신가요?