묻고 답해요
143만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
predict, get_prediction 차이가 궁금합니다
newdata 데이터 프레임 생성 후 model.predict(newdata) pred = model.get_prediction(newdata)pred.summary_frame(alpha=0.05) # 신뢰구간, 예측값 구하기 1,2번의 차이가 무엇인지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse, mape 오류
<rmse>import numpy as npdef rmsle(y_test, y_pred): return np.sqrt(np.mean(np.power(np.log1p(y_test) - np.log1p(y_pred)), 2)) print(np.sqrt(np.mean(np.power(np.log1p(y_test) - np.log1p(y_pred)), 2))) 이렇게 입력하면 예측값은 안뜨고 power() takes from 2 to 3 positional arguments but 1 were given 라고 뜹니다 ㅠ 뭐가 문제인 건가요?<mape>import numpy as npdef mape(y_val, pred): return np.mean(np.abs((y_val - pred)/y_val))**100 print(np.mean(np.abs((y_val - pred)/y_val))**100) 이렇게 입력하면 예측값은 안뜨고 inf라고만 뜹니다. rmse와 mape 둘다 왜 예측값은 안뜨는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 1유형 문의
https://www.kaggle.com/code/agileteam/t1-23-drop-duplicates 안녕하세요 강사님캐글에 정리해주신 1유형 문제 중 궁금한게 있어서 질문드립니다. 지문 내용 중- 결측치는 f1의 데이터 중 10번째 인덱스에 위치한 값으로 채움풀이를 보면 f1 컬럼 기준 내림차순 정렬 수행 후, 10번째 인덱스 값(10번째로 큰 값)으로 풀이 되어있습니다.문제 지문에 상위 혹은 10번째로 큰 값이라는 내용이 없어서 처음 풀이 시, 저는 주어진 데이터에서 정렬 없이 10번째 인덱스 값을 사용하여 풀이하였습니다.시험에서 위와 비슷한 유형의 문제 풀이 시 내림차순 정렬을 기본 전제로 풀이해야하나요?
-
미해결프로그래밍 시작하기 : 파이썬 입문 (Inflearn Original)
강의자료 요청 드립니다.
안녕하세요 강의 자료 요청 드립니다,wonguo@naver.com 입니다.감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경 적응
안녕하세요. 현재 노트북으로만 진행해왔는데요.시험전에 시험환경에 적응하는게 좋다는 말을 듣긴했는데, 어디서 어떻게 적응할 수 있는지 모르겠습니다.시험환경에서 기출문제를 풀어볼 수 있는건가요?시험환경에서 어떤것이라도 해볼 수 있는 링크나 방법이 궁금합니다.1유형에서 답을 제출할때 제출하는 칸에 코드를 넣는것인지, 숫자를 넣는것인지 모르겠습니다.코드를 넣는게 맞다면, 코드가 길어지면 어떻게 해야할까요? 한줄로 이어 붙이면 될까요?케글에 있는 작업형1 모의고사2 번 문제인데, 만약에 코드가 답이라면 cond = (df['f1'].isnull())df = df[cond]result = df['f5'].median()print(result) 이렇게 붙여넣으면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train.pop('A') 와 train['A'] 가 어떤 차이가 있나요?
기출4회 작업형2 설명 중에서target = train.pop('Segmentation') 코드가 있는데이게 a = train['Segmentation'] 과 어떤 차이가 있나요?target이나 a 나 train 데이터프레임에서 Segmentation 컬럼을 추출하는 것은 동일하지 않나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 random_state
안녕하세요! 작업형 2에서 random_state 때문에 혼선이 오네요 ㅠㅠ 제가 잘못 이해를 한건지, 검증데이터 분리 / 모델링시 고정? 용도로 사용한다고 인지했는데, 막상 문제 풀어보니 설정값에 따라 10점 차이가 나더라구요 ㅜㅜ random_state=2022 (71점) / random_state=0 (85점)차이가 왜케 많이 나는걸까요? ㅠ 혹시 추천하시는 값이 있으실까요? # 검증 데이터 분리 from sklearn.model_selection import train_test_split from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop('TravelInsurance', axis=1), train['TravelInsurance'], test_size=0.1, random_state=2022) # from sklearn.model_selection import train_test_split # X_tr, X_val, y_tr, y_val = train_test_split(train.drop('TravelInsurance', axis=1), # train['TravelInsurance'], # test_size=0.1, # random_state=0) # 모델링 from sklearn.ensemble import RandomForestClassifier from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(n_estimators=400, max_depth=9, random_state=2022) rf.fit(X_tr, y_tr) pred = rf.predict_proba(X_val)[:,1]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀(기출5회)
안녕하세요 RMSE나 어렵다면 MSE를 사용하면 된다고 하셨는데요 from sklearn.metrics import mean_squared_errordef rmse(y_true,y_pred) : 1. 사이킷 런에서 mse 를 불러왔는데 다음줄에서def rmse를 사용하는 이유가 무엇인지 모르겠습니다2. 그리고 y_true, y_pred 라는 변수를 트레인_테스트 분리 한적이 없는데 이건 어떤걸까요? mse = mean_squared_error(y_val,pred) 이 부분은 다른 한가지 방법으로 푼것과 동일하고 이해가 가는데요return mse **0.5result=rmse(y_val,pred) 3. 이건 단순 암기?;;의 영역으로 보면될까요? mse로 풀면 된다고 하셨는데 결과는 rmse로 출력하고 있는 것 같고 rmse/mse가 혼재된상태로 코드를 작성하는거같아서요print('/n rmse:',result)mse방식으로 통일된 형태(조금더 쉽게,,)로 평가하는 방법이 있을지 궁금합니다감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 summary
안녕하세요 작업형3의 서머리에서의 결정계수라던지 용어에 대해서 정리된 파일이나 참고할 자료라 있을까요??영어랑 한글이 자꾸 헷갈려서 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션14 5회 기출문제 작업형 1-2 질문
안녕하세요, 5회 작업형 1-2 질문입니다.아래와 같이, cond 변수를 만들어주고,변수들을 내림차순 정렬 해봤는데요.아래 구문 그대로 실행 시 '과체중 또는 위험체중' 조건에서 bmi가 25.0000인 row가 출력됩니다. 과체중 또는 위험체중 : Gender Height Weight Height(m) bmi 7841 Female 157.0 56.7 1.570 23.002962 5311 Female 154.2 54.7 1.542 23.004806 8467 Female 159.6 58.6 1.596 23.005509 8304 Female 159.6 58.6 1.596 23.005509 6165 Female 155.6 55.7 1.556 23.005730 ... ... ... ... ... ... 7126 Female 151.8 57.6 1.518 24.996485 9661 Female 164.2 67.4 1.642 24.998479 903 Male 172.4 74.3 1.724 24.998520 9473 Female 160.5 64.4 1.605 24.999757 5355 Female 160.0 64.0 1.600 25.000000 조건에서 25 미만으로 당연히 걸러질거라 생각했는데.리스트에 들어갔고, 실제로 정답은 맞습니다.이 경우는 무슨 경우인가요? import pandas as pd df = pd.read_csv("5-2bmi.csv") # your code df['Height(m)'] = df['Height'] / 100 df['bmi'] = df['Weight'] / (df['Height(m)'] ** 2) # print(df.info()) # print(df.head()) # 정상체중 cond1 = df['bmi'] >= 18.5 cond2 = df['bmi'] < 23 # 위험체중 cond3 = df['bmi'] >= 23 cond4 = df['bmi'] < 25 # bmi 정상 사람수 : 1986 # print((df[cond1 & cond2].sort_values('bmi', ascending=True))) a = len(df[cond1 & cond2].sort_values('bmi', ascending=True)) # print(len(df[cond1 & cond2].sort_values('bmi', ascending=True))) # bmi 위험체중 사람수 : 2130 print('과체중 또는 위험체중 :') print(df[cond3 & cond4].sort_values('bmi', ascending=True)) # ★ b = len(df[cond3 & cond4].sort_values('bmi', ascending=True)) # print(len(df[cond3 & cond4].sort_values('bmi', ascending=True))) print(int(abs(a-b))) # 144
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 원핫 인코딩 수행 후
작업형 2유형 원핫인코딩 수행 후 훈련 데이터와 테스트데이터의 컬럼수가 안맞아서 컬럼 갯수가 적은 데이터 기준으로 컬럼 순서와 갯수를 맞춰주고 모델을 학습시키는데 상관 없을까요??(분류문제)
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
5장 회귀: 보스턴주택가격예측 seaborn.regplot()그래프관련 질문입니다
선생님 안녕하세요 개정2판으로 책과 함께 다시 강의를 듣고있습니다 5장 회귀p.325에서 단순회귀그래프를 그리는데 맨 마지막의 그래프가 나오지 않으면서 범주형변수의 order관련해서 typeError 를 보이고 있습니다.일단, 보스턴 주택가격 데이터는사이킷런에서 삭제되어서 다른방식으로 로딩해서 만들었습니다. 시본그래프가 왜ax= axs[row][col] 부분에서 마지막객체가 비어있는데 왜그럴까요?더운여름 건강 조심하시고, 정말 훌륭한 강의 감사드립니다. boston_1 = datasets.fetch_openml('boston', return_X_y= True) bostonDF = boston_1[0] bostonDF['PRICE'] = boston_1[1]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
print(int) 에러
작업 1유형에서 정수로 값 도출한 뒤에 print문으로 출력하려고 하는데 자꾸 type error가 뜹니다..시험환경에서는 print문 안 쓰면 값 도출이 안되는데 이럴땐 어떻게 해야할까요..?...import pandas as pd df = pd.read_csv("./sample_data/5-1price.csv") # your code cond = df[(df['종량제봉투종류'] == '규격봉투') & (df['종량제봉투용도'] == '음식물쓰레기')] cond2 = cond[cond['2ℓ가격'] != 0] #cond2['2ℓ가격'].unique() result = cond2['2ℓ가격'].mean() print(round(result))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
1과목 기출에서 자주나오는 내용을 2,3과목 로드맵과 같은형태로 받을 수 있을까요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요물론 직접 타이핑 하는게 도움이 되지만시험직전에 보면서 안정을 취하고 싶습니다 ㅠㅠ
-
미해결(2025) 일주일만에 합격하는 정보처리기사 실기
영상이 살짝 잘린 거 같네요.
상속과 생성자 강의 살짝 영상이 잘린 거 같습니다.(3:25)이론 강의는 PDF로 제공해 주시는 걸로 알고 있는데 강의 자료는 제공하지 않나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
세션 종료
코드 작성하고 실행 시켰는데 세션이 다운됐어요. 왜 이런걸까요??코랩 자체에서 무료 제공하는 리소스를 모두 소진한 줄 알았는데, 다른 문제들에 대해서는 아직 잘 돌아갑니다.제가 작성한 코드도 같이 올려둘게요!import pandas as pdfrom sklearn.ensemble import RandomForestRegressorfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_squared_errordf1 = pd.read_csv('/content/drive/MyDrive/bigdata(빅분기 놀이터)/작업형2 모의문제/모의문제 2번/train.csv')# print(df1.head())# print(df1.info())# print(df1.shape)df2 = pd.read_csv('/content/drive/MyDrive/bigdata(빅분기 놀이터)/작업형2 모의문제/모의문제 2번/test.csv')# print(df2.head())# print(df2.info())# print(df2.shape)df1['name'] = df1['name'].fillna(df1['name'].mode()[0])df1['host_name'] = df1['host_name'].fillna(df1['name'].mode()[0])df1['last_review'] = df1['last_review'].fillna(df1['name'].mode()[0])df1['reviews_per_month'] = df1['reviews_per_month'].fillna(df1['reviews_per_month'].median())df2['name'] = df2['name'].fillna(df2['name'].mode()[0])df2['host_name'] = df2['host_name'].fillna(df2['name'].mode()[0])df2['last_review'] = df2['last_review'].fillna(df2['name'].mode()[0])df2['reviews_per_month'] = df2['reviews_per_month'].fillna(df2['reviews_per_month'].median())x = df1.drop('price', axis=1)y = df1['price']x_encoded = pd.get_dummies(x)x_train, x_valid, y_train, y_valid = train_test_split(x_encoded.drop('id', axis=1), y, test_size=0.25)md = RandomForestRegressor(n_estimators=300)md.fit(x_train, y_train)pred = md.predict(x_valid)print(mean_squared_error(y_valid, pred)) # MSEprint(mean_squared_error(y_valid, pred, squared=False)) # RMSEx_test = df2x_test_encoded = pd.get_dummies(x_test)md = RandomForestRegressor(n_estimators=300)md.fit(x_encoded.drop('id', axis=1), y)pred = md.predict_proba(x_test_encoded.drop('id', axis=1))print(pred)print(pred.shape)result = pd.DataFrame({'id' : df2['id'], 'price' : pred })result.to_csv('작업형2 모의문제 2번.csv', index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형 2번
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import roc_auc_score from sklearn.model_selection import train_test_split train = pd.read_csv("data/customer_train.csv") #3500 test = pd.read_csv("data/customer_test.csv") #2482 train['환불금액'] = train['환불금액'].fillna(0) test['환불금액'] = test['환불금액'].fillna(0) #print(train.isnull().sum().sum()) cols = ['회원ID','총구매액','최대구매액','환불금액','방문일수','방문당구매건수','주말방문비율','구매주기'] target = train.pop('성별') #용자 코딩 #print(train['성별'].value_counts()) #여2남1 train = pd.get_dummies(train) test = pd.get_dummies(test) xtr,xval,ytr,yval = train_test_split(train[cols],target,test_size = 0.2, random_state = 0) print(xtr.shape,xval.shape,ytr.shape,yval.shape) rf = RandomForestClassifier() rf.fit(xtr[cols],ytr) pred = rf.predict_proba(xval[cols]) pred = rf.predict_proba(test[cols]) submit = pd.DataFrame({'pred':pred[:,1]}) submit.to_csv('result.csv',index=False) result=pd.read_csv('result.csv') print(result.shape) print(result.head()) 강의에서처럼 마지막 제출 pred 변수 만들 때 rf.predict_proba(test) 하니까 안만들어져서 rf.predict_proba(test[cols])로 생성했는데, 맞게 코딩한건가요?
-
해결됨[2024] 실무에서 사용하는 클라우드 보안 프로그래밍 (AWS, Python, Terraform)
모듈 vs 리소스
안녕하세요콘솔에서 리소스를 생성하는건 익숙하지만, 테라폼은 이제 막 시작한 경우라면 1, 2번 중 어떤게 더 테라폼 동작 구조를 파악하면서 이해할 수 있는지 궁금합니다.모듈 사용없이 각각의 리소스.tf 을 생성하고 타 리소스에서 참조가 필요한 항목들만 output으로 출력하여 배포처음부터 모듈 형태로 작성하여 배포aws 콘솔로만 주로 작업을 했다보니 리소스들의 옵션은 문서를 보면 어느정도 이해할 수 있는 정도이고, 테라폼 사용 경험은 폴더 분리 없이 한 폴더 내의 resource.tf (ecs.tf, ecr.tf) 를 모두 생성하고 배포해본 정도만 있습니다. 모듈은 경험x
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 X_train, y_train 합칠때
선생님 강의중 2회 2유형 문제 강의중 X_train 과 y_train 그리고 X_test 까지 총 데이터가 3개가 주어진 문제에서 df = pd.concat([X_train,y_train['Reached.on.Time_Y.N']], axis =1) 로 데이터를 합쳐주셨는데 이러면 검증데이터분리 부분에서 (target = df.pop('Reached.on.Time_Y.N')으로 타겟데이터를 뺐을때) X_tr, X_val, y_tr, y_val = train_test_split(df, target, test_size = 0.2, random_state = 1) 이렇게 합친 데이터를 사용해서 분리해도 문제가 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩/라벨인코딩 관련하여 질문드립니다.
다른 질문에 답변주신 내용에 대해서 추가 질문하려고 합니다.train에는 있는데, test에 없다면 라벨인코딩 가능test에는 있는데 train에는 없다면 데이터를 합쳐서 라벨 또는 원핫 인코딩 가능이거에 대해서 부가 질문이 있습니다.데이터를 합친다는게, Target Column Pop한다음 개수 일치시킨 다음, concat으로 합친다는 의미인거죠?(axis=0)그다음 원핫인코딩이나 라벨인코딩을 하고, 원래 Test Data의 수를 iloc나 loc로 분리해서 이후 작업을 진행하라는 의미인건가요??