묻고 답해요
155만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
순위 정보를
불러오고 있어요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 수강 순서
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요강사님 현재 순차적으로 강의 듣고 있는데 각 작업형 섹션 끝나고 바로 모의 문제들이 있고, 기출문제는 밑에 있는데 이 순서로 듣는게 맞나요? 기출문제를 먼저 듣는게 맞다고 생각되는데 그냥 순서대로 쭉 들으면 되는건지, 아니면 기출부터 듣는 게 맞는건지 궁금합니다.수강순서에 관한 가이드를 찾아봐도 없길래 여쭤봅니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 제2유형
제2유형에서 시작전에train.info()test.info()하잖아요. 이후에 타입유형(int / float /object) 을 확인 한 후에 어떤 부분을 바꿔줘야하는건가요? 어차피 원핫인코딩 pd.get_dummies와 train, test = train.align(test, join ='left', axis=1, fill_value=0) 해주면 어느정도 형식이 정리되는거 아닌가요? 별도로 처리해줘야 할 게있는지 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출유형 작업형1 2번문제
import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/5_1/5-2bmi.csv") # your code print(df) df['bmi']= df['Weight']/(df['Height']*0.01*df['Height']*0.01) lbmi = df['bmi']<18.5 jbmi = (18.5<= df['bmi'])&(df['bmi']<23) hbmi = (23 <=df['bmi'])&(df['bmi']<25) print(len(df[jbmi]),len(df[hbmi])) print(abs(len(df[jbmi]) - len(df[hbmi]))) 결과값이 1다르게 나옵니다무엇이 잘못된건지 잘 모르겠습니다ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험때 필기 가능 여부?
실기 시험때 종이에 필기가 가능한가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로지스틱회귀 질문
import pandas as pd from statsmodels.formula.api import logit from sklearn.metrics import accuracy_score # 1. 로지스틱 회귀 모델 적합 (test로 직접 학습 — 실전에서는 train 사용 권장) model = logit('target ~ age + sex + cp + trestbps + chol + fbs + restecg + thalach + exang + oldpeak + slope + ca + thal', data=test).fit() # 2. 예측 수행 (test 그대로 사용) pred_probs = model.predict(test) pred = (pred_probs > 0.5).astype(int) # 3. 정확도 → 오류율 계산 error_rate = 1 - accuracy_score(test['target'], pred) print(f'오류율: {error_rate:.4f}') Optimization terminated successfully. Current function value: 0.310865 Iterations 8 오류율: 0.1034 # model = logit('target~age+sex+cp+trestbps+chol+fbs+restecg+thalach+exang+oldpeak+slope+ca+thal',test).fit() import statsmodels.api as sm X2 = test.drop(columns = ['target']) X2 = sm.add_constant(X2) pred = model.predict(X2) pred = (pred>0.5).astype(int) pred from sklearn.metrics import accuracy_score 1-accuracy_score(test['target'],pred) 0.1954022988505747 문제는 test데이터의 독립변수로 target 예측 후 오류율을 구하여라 입니다. 근데 로짓이랑 sm이랑 차이가 좀 심하게 나는데 원래 로지스틱 회귀분석할때 sm으로 해야하나요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test data 이상치 관련
test data는 이상치와 결측치가 있어도 행을 삭제하면 안 된다고 하셨는데 그럼 만약에 이상치 혹은 결측치가 하나 정도 있어도 그냥 무시하고 진행해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 test_size
test_size값을 항상 0.2로 해왔었는데 어떤 기준에 따라 조정하는 건지 궁금합니다!그냥 시험에서도 0.2로 해도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기 제2유형 기출 문의
제2유형에서, 데이터 과적합에 영향을 줄 수 있는 열은 drop 진행해야 되나요? 일반적으로 실제 시험에는 drop을 대부분 안하고 시험문제 푸는 것 같은데 시험이 며칠 안남아서 랜포+원핫인코딩만 달달외우고 시험보는데 drop별도로 공부해야하나 문의드립니다 ㅜ_ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 문제 푸는 방법
아래와 같이 train과 test를 합해서 스케일링과 인코딩을 모두 진행할 경우, 각각 진행하는 것과 차이가 있나요?그리고 스케일링과 인코딩에 추천하는 함수가 있으신가요?df= pd.concat([x_train, x_test], axis=0) num = df.select_dtypes(exclude='object').columnsfrom sklearn.preprocessing import RobustScalerscaler = RobustScaler()df[num] = scaler.fit_transform(df[num]) objs = df.select_dtypes(include='object').columnsfrom sklearn.preprocessing import LabelEncoderfor obj in objs :encoder = LabelEncoder()df[obj] = encoder.fit_transform(df[obj]) x_train2 = df[:len(x_train)]x_test2 = df[len(x_train):]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
loc[2000]
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요아래처럼 코드 짜도 되는지?m = df.loc[2000] > df.loc[2000].mean() print(sum(m))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 문제 질문
안녕하세요이번 t1-38.pivot-py 문제에서 C303지점 50대 2번 성별이 NaN 값으로 나오는데이거 0으로 처리해서 차이가 가장 큰 값은 50대가 될 여지가 있어보이는데실제 시험이라면 어떻게 해야될까요??
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
작업형 유형 2에서,,, train, test, split 시 성능
안녕하세요선생님 덕분에 열심히 공부하고 있습니다. 질문 있습니다. 작업형 유형 2 분류든 회귀든 랜덤포레스트 할때,train_test_split 할때와 하지 않을때f1_score나 accuracy_score 등 성능점수에 차이가 보입니다. (데이터 분할 시 성능이 더 낮게나옴) 제가 직접 해봤을 때 1. train_test_split 한 이후x_val_pred = model.predict(x_val)accuracy_score(x_val_pred, y_val) 성능 점수 2.별도 train_test_split 안하고 y_hat = model.predict(x_train)accuracy_score(y_hat, y_train)시 성능점수 데이터를 분리한 1의 성능점수가 더 낮게 나오는데왜 그럴까요,,,, ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기환경에서 오류 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 실기체험하는대서 아래처럼 쓰고 실행했더니import pandas as pd df = pd.DataFrame({ '키': [150, 160, 170, 175, 165, 155, 172, 168, 174, 158, 162, 173, 156, 159, 167, 163, 171, 169, 176, 161], '몸무게': [74, 50, 70, 64, 56, 48, 68, 60, 65, 52, 54, 67, 49, 51, 58, 55, 69, 61, 66, 53]}) from statsmodels.formula.api import ols model = ols('키 ~ 몸무게', data=df).fit() print(model.summary())아래처럼 나오는데, 왜 그런건가요?Notes:[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 선택 질문
LabelEncoder는 텍스트값을 정수로 바꿔주는 것만하고 서열관계는 모르기 떄문에 트리기반구조인 RF, LGBM에서는 괜찮지만 선형모델에서는 원핫인코딩이 더 적절하다는데 시험환경에서이것까지 신경써야할정도로 유의한 차이인가요? 아니면 선형모델에서도 라벨써도 크게 지장없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가(분류) 시험장 제공여부 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요아래 예시로 적혀있는 코드들도 시험 때 주어지는지 아니면 암기해야하는지 문의드립니다.from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score # 정확도 print(accuracy_score(y_test, pred)) # 정밀도 print(precision_score(y_test, pred)) # 재현율 (민감도) print(recall_score(y_test, pred)) # F1 print(f1_score(y_test , pred)) # roc-auc print(roc_auc_score(y_test, pred_proba))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
submit 코드 2개 차이점 설명 부탁드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요2개 차이점 설명 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 시험에서
csv파일 제출 시data.to_csv('result.csv', index=False)이렇게 csv파일로 만들고 제출버튼 누르면 정상적으로 제출 완료되는게 맞죠..??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 관련 질의 (pop, train_test_split)
train_target=train.pop('TotalCharges') # 3. 분할 from sklearn.model_selection import train_test_split tr_x, val_x, tr_y, val_y =train_test_split(train,train_target, test_size=0.2, random_state=0)# 3. 분할 from sklearn.model_selection import train_test_split tr_x, val_x, tr_y, val_y =train_test_split(train,train['TotalCharges'], test_size=0.2, random_state=0) tr_x.head(), tr_y.head(), val_x.head(), val_y.head()위 두가지 경우로 모델링 하여 MAE값을 산출했습니다.아래꺼는 Linear Regression : 0.0000000000012394228 RandomForest Regressor : 1.9100924757282742306 XGB Regressor : 10.5623083675717790442 위에꺼는 Linear Regression : 914.6725879047844500747 RandomForest Regressor : 941.4584990860494144727 XGB Regressor : 1033.3863728784358499979 왜 이렇게 다른 결론이 나올까요?해당 내용만 변경하고, 나머지 코드는 모두 동일한 상태에서 구동했습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 2-2 오즈비 계산
# 1) 오즈비 계산 import numpy as np 1. np.exp(-0.3558) : 0.7006127287696858 2. np.exp(model.params['HasPhoneService']) : 0.7005907598948918 영상에서는 2처럼 풀이하셨는데 1로 풀어도 괜찮을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코드 오류
import pandas as pd # train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ab_nyc/train.csv") # test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ab_nyc/test.csv") train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") # print(train.shape, test.shape) # (39116, 16) (9779, 15) # 1. 문제 정의 # 회귀 문제, target = price # 평가: R-Squared, MAE, MSE, RMSE, RMSLE, MAPE # 2. 데이터 불러오기 # 3. 탐색적 데이터 분석 # train.info() # dtypes: float64(3), int64(7), object(6) # test.info() # dtypes: float64(3), int64(6), object(6) # train.describe(include='O') # unique: 38447 # test.describe(include='O') # unique: 9718 # train.nunique() # test.nunique() # train.isnull().sum() # last_review, reviews_per_month 결측치 # test.isnull().sum() # name, host_name, last_review, reviews_per_month # 4. 데이터 전처리(인코딩) # 4-1. 결측치 처리(결측치 컬럼 삭제) cols = ['name', 'id', 'host_name', 'last_review', 'reviews_per_month'] train = train.drop(cols, axis= 1) test = test.drop(cols, axis = 1) # 4-2. 인코딩(원핫인코딩 사용) train = pd.get_dummies(train) test = pd.get_dummies(test) # 5. 검증 데이터 나누기 from sklearn.model_selection import train_test_split target = train.pop('price') X_tr, X_val, y_tr, y_val = train_test_split( train, target, test_size=0.15, random_state=0 ) # 6. 모델 학습 및 평가 # from sklearn.ensemble import RandomForestRegressor # rf = RandomForestRegressor(random_state=0) # rf.fit(X_tr, y_tr) # pred = rf.predict(X_val) from sklearn.linear_model import LinearRegression lr = LinearRegression lr.fit(X_tr, y_tr) # 평가: R-Squared, MAE, MSE, RMSE, RMSLE, MAPE from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error r2_score = r2_score(y_val, pred) mae = mean_absolute_error(y_val, pred) mse = mean_squared_error(y_val, pred) rmse = rmse(y_val, pred) rmsle = rmsle(y_val, pred) mape = mape(y_val, pred) # 7. 제출 pred = rf.predict(test) pd.DataFrame({'id':test_id, 'price': pred}).to_csv('00000.csv',index=False)안녕하세요혼자 풀이를 해보다가 모델 학습 단계에서 계속 오류가 나고 1분이 넘어가서 이유를 모르겠습니다..오류가 나는 이유와 전체적인 코드(저렇게 제출을 해도 시험에 문제가 없는지 ..) 한 번 봐주시면 감사하겠습니다...
주간 인기글
순위 정보를
불러오고 있어요