묻고 답해요
155만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
순위 정보를
불러오고 있어요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기 제2유형 기출 문의
제2유형에서, 데이터 과적합에 영향을 줄 수 있는 열은 drop 진행해야 되나요? 일반적으로 실제 시험에는 drop을 대부분 안하고 시험문제 푸는 것 같은데 시험이 며칠 안남아서 랜포+원핫인코딩만 달달외우고 시험보는데 drop별도로 공부해야하나 문의드립니다 ㅜ_ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 문제 푸는 방법
아래와 같이 train과 test를 합해서 스케일링과 인코딩을 모두 진행할 경우, 각각 진행하는 것과 차이가 있나요?그리고 스케일링과 인코딩에 추천하는 함수가 있으신가요?df= pd.concat([x_train, x_test], axis=0) num = df.select_dtypes(exclude='object').columnsfrom sklearn.preprocessing import RobustScalerscaler = RobustScaler()df[num] = scaler.fit_transform(df[num]) objs = df.select_dtypes(include='object').columnsfrom sklearn.preprocessing import LabelEncoderfor obj in objs :encoder = LabelEncoder()df[obj] = encoder.fit_transform(df[obj]) x_train2 = df[:len(x_train)]x_test2 = df[len(x_train):]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
loc[2000]
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요아래처럼 코드 짜도 되는지?m = df.loc[2000] > df.loc[2000].mean() print(sum(m))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 문제 질문
안녕하세요이번 t1-38.pivot-py 문제에서 C303지점 50대 2번 성별이 NaN 값으로 나오는데이거 0으로 처리해서 차이가 가장 큰 값은 50대가 될 여지가 있어보이는데실제 시험이라면 어떻게 해야될까요??
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
작업형 유형 2에서,,, train, test, split 시 성능
안녕하세요선생님 덕분에 열심히 공부하고 있습니다. 질문 있습니다. 작업형 유형 2 분류든 회귀든 랜덤포레스트 할때,train_test_split 할때와 하지 않을때f1_score나 accuracy_score 등 성능점수에 차이가 보입니다. (데이터 분할 시 성능이 더 낮게나옴) 제가 직접 해봤을 때 1. train_test_split 한 이후x_val_pred = model.predict(x_val)accuracy_score(x_val_pred, y_val) 성능 점수 2.별도 train_test_split 안하고 y_hat = model.predict(x_train)accuracy_score(y_hat, y_train)시 성능점수 데이터를 분리한 1의 성능점수가 더 낮게 나오는데왜 그럴까요,,,, ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기환경에서 오류 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 실기체험하는대서 아래처럼 쓰고 실행했더니import pandas as pd df = pd.DataFrame({ '키': [150, 160, 170, 175, 165, 155, 172, 168, 174, 158, 162, 173, 156, 159, 167, 163, 171, 169, 176, 161], '몸무게': [74, 50, 70, 64, 56, 48, 68, 60, 65, 52, 54, 67, 49, 51, 58, 55, 69, 61, 66, 53]}) from statsmodels.formula.api import ols model = ols('키 ~ 몸무게', data=df).fit() print(model.summary())아래처럼 나오는데, 왜 그런건가요?Notes:[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 선택 질문
LabelEncoder는 텍스트값을 정수로 바꿔주는 것만하고 서열관계는 모르기 떄문에 트리기반구조인 RF, LGBM에서는 괜찮지만 선형모델에서는 원핫인코딩이 더 적절하다는데 시험환경에서이것까지 신경써야할정도로 유의한 차이인가요? 아니면 선형모델에서도 라벨써도 크게 지장없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가(분류) 시험장 제공여부 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요아래 예시로 적혀있는 코드들도 시험 때 주어지는지 아니면 암기해야하는지 문의드립니다.from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score # 정확도 print(accuracy_score(y_test, pred)) # 정밀도 print(precision_score(y_test, pred)) # 재현율 (민감도) print(recall_score(y_test, pred)) # F1 print(f1_score(y_test , pred)) # roc-auc print(roc_auc_score(y_test, pred_proba))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
submit 코드 2개 차이점 설명 부탁드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요2개 차이점 설명 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 시험에서
csv파일 제출 시data.to_csv('result.csv', index=False)이렇게 csv파일로 만들고 제출버튼 누르면 정상적으로 제출 완료되는게 맞죠..??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 관련 질의 (pop, train_test_split)
train_target=train.pop('TotalCharges') # 3. 분할 from sklearn.model_selection import train_test_split tr_x, val_x, tr_y, val_y =train_test_split(train,train_target, test_size=0.2, random_state=0)# 3. 분할 from sklearn.model_selection import train_test_split tr_x, val_x, tr_y, val_y =train_test_split(train,train['TotalCharges'], test_size=0.2, random_state=0) tr_x.head(), tr_y.head(), val_x.head(), val_y.head()위 두가지 경우로 모델링 하여 MAE값을 산출했습니다.아래꺼는 Linear Regression : 0.0000000000012394228 RandomForest Regressor : 1.9100924757282742306 XGB Regressor : 10.5623083675717790442 위에꺼는 Linear Regression : 914.6725879047844500747 RandomForest Regressor : 941.4584990860494144727 XGB Regressor : 1033.3863728784358499979 왜 이렇게 다른 결론이 나올까요?해당 내용만 변경하고, 나머지 코드는 모두 동일한 상태에서 구동했습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 2-2 오즈비 계산
# 1) 오즈비 계산 import numpy as np 1. np.exp(-0.3558) : 0.7006127287696858 2. np.exp(model.params['HasPhoneService']) : 0.7005907598948918 영상에서는 2처럼 풀이하셨는데 1로 풀어도 괜찮을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코드 오류
import pandas as pd # train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ab_nyc/train.csv") # test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ab_nyc/test.csv") train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") # print(train.shape, test.shape) # (39116, 16) (9779, 15) # 1. 문제 정의 # 회귀 문제, target = price # 평가: R-Squared, MAE, MSE, RMSE, RMSLE, MAPE # 2. 데이터 불러오기 # 3. 탐색적 데이터 분석 # train.info() # dtypes: float64(3), int64(7), object(6) # test.info() # dtypes: float64(3), int64(6), object(6) # train.describe(include='O') # unique: 38447 # test.describe(include='O') # unique: 9718 # train.nunique() # test.nunique() # train.isnull().sum() # last_review, reviews_per_month 결측치 # test.isnull().sum() # name, host_name, last_review, reviews_per_month # 4. 데이터 전처리(인코딩) # 4-1. 결측치 처리(결측치 컬럼 삭제) cols = ['name', 'id', 'host_name', 'last_review', 'reviews_per_month'] train = train.drop(cols, axis= 1) test = test.drop(cols, axis = 1) # 4-2. 인코딩(원핫인코딩 사용) train = pd.get_dummies(train) test = pd.get_dummies(test) # 5. 검증 데이터 나누기 from sklearn.model_selection import train_test_split target = train.pop('price') X_tr, X_val, y_tr, y_val = train_test_split( train, target, test_size=0.15, random_state=0 ) # 6. 모델 학습 및 평가 # from sklearn.ensemble import RandomForestRegressor # rf = RandomForestRegressor(random_state=0) # rf.fit(X_tr, y_tr) # pred = rf.predict(X_val) from sklearn.linear_model import LinearRegression lr = LinearRegression lr.fit(X_tr, y_tr) # 평가: R-Squared, MAE, MSE, RMSE, RMSLE, MAPE from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error r2_score = r2_score(y_val, pred) mae = mean_absolute_error(y_val, pred) mse = mean_squared_error(y_val, pred) rmse = rmse(y_val, pred) rmsle = rmsle(y_val, pred) mape = mape(y_val, pred) # 7. 제출 pred = rf.predict(test) pd.DataFrame({'id':test_id, 'price': pred}).to_csv('00000.csv',index=False)안녕하세요혼자 풀이를 해보다가 모델 학습 단계에서 계속 오류가 나고 1분이 넘어가서 이유를 모르겠습니다..오류가 나는 이유와 전체적인 코드(저렇게 제출을 해도 시험에 문제가 없는지 ..) 한 번 봐주시면 감사하겠습니다...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실제 시험장 summary
실제 시험장 summary를 쓸수없나요??실제 시험환경에서 summary()를 하니까 데이터가 안나와서 여쭤봅니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
csv 개수 차이
안녕하세요.강의에서 csv 2, 3개 차이가 있다고 하셨는데, 어떤 차이와 코드를 작성하는데 어떤 차이가 있는지 문의드립니다. 감사합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가하지 않고 한 가지 방법 질문 있습니다.
안녕하세요 저번에 평가하지 않고 랜덤포레스트 한개로만 제출한다고 했을 때에 그러면은 인코딩까지 동일하게 하고rf.fit(X_tr, y_tr)을rf.fit(train, target)으로 바꾸고pred = rf.predict(X_val)을pred = rf.predict(test)로 바꿔서target = train.pop('농약검출여부')train = pd.get_dummies(train)test = pd.get_dummies(test)train, test = train.align(test, axis=1, join='left', fill_value=0)from sklearn.ensemble import RandomForestClassifier-------------------------------------rf = RandomForestClassifier(random_state=0)rf.fit(train, target)pred = rf.predict(test)result = pd.DataFrame({'pred':pred})result.to_csv('result.csv',index=False)랜덤포레스트 기준 요런식으로 작성하면 되는지 궁금합니다.글구 쌤께서 target = train.pop할때 항상 인코딩하기 전에 하는데 이유가 있는지 궁금합니다!항상 이해 잘되게 가르쳐 주셔서 감사드립니다. 선생님
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코드 작성 질문
앞쪽 강의에서는from scipy import statsstats.shapiro(~~) 라고 설명해주셨는데이원 분산 분석 강의에서는from scipy.stats import shapiro로 라이브러리를 불러오네요 두 코딩에 차이가 있을까요?
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
항상 모델학습하실때 train_test_split일부러 안하시는 이유가 있는건가요?
항상 모델학습하실때 train_test_split일부러 안하시고 바로 모델에 X_train학습 시키는 이유가 있는건가요? 이러면 과적합 문제가 발생할수 있지 않나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀랜덤포레스트 max_depth
# 데이터 불러오기 import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/7_2/mart_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/7_2/mart_test.csv") # EDA # total이 target컬럼 # train.shape, test.shape (700,10) // (300,9) # print(train.head(3)) target = train.pop('total') # print(train.shape) # print(train.info()) rating 제외 모두 object # print(train.describe(include="O")) # print(test.describe(include='O')) # unique 수 일치, 레이블 인코딩 활용 # print(train.isnull().sum().sum()) # print(test.isnull().sum().sum()) # 결측치 0개 # 전처리 from sklearn.preprocessing import LabelEncoder le = LabelEncoder() cols = train.select_dtypes('object').columns for col in cols : train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) # print(test.head(3)) # 레이블인코딩 완료 # 데이터 분할 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.142, random_state=0) X_tr.shape, X_val.shape, y_tr.shape, y_val.shape # 평가 및 검증 (회귀) 랜덤포레스트 from sklearn.metrics import root_mean_squared_error from sklearn.metrics import r2_score from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(random_state=0, max_depth=1) model = rf.fit(X_tr, y_tr) pred = model.predict(X_val) print(root_mean_squared_error(y_val,pred)) # basic : 403187.3131420301 # max_depth=8 : 389483.9937048198 # max_depth=1 : 355335.1208784505 # print(r2_score(y_val,pred))위는 제가 작성한 코드인데, 베이직에서 약 40만의 rmse가 나왔습니다.후에 max_depth=8부터 튜닝을 시도했는데 depth를 올리는게 아닌 최솟값인 1까지 내렸을 때 최적의 rmse가 나오더라구요.이런 모델을 만들어본적이 없어서.. 혹시 제가 코딩한 모델이 잘못된건가 의문이 들어 질문드립니다! 정상적인 걸까요...?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중선형회귀 질문입니다.
만약 적합된 회귀모델의 회귀계수 중 가장 큰 값을 물었을때, Intercept를 포함하는지, 음수는 작은 값이 맞는지 (상관계수 처럼 절댓값으로 고려하지 않아도 되는지) 궁금합니다.
주간 인기글
순위 정보를
불러오고 있어요