묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 csv 파일 제출
안녕하세요, 강사님.확인차 질문 드립니다. 작업형2에서 문제를 풀고 해당 코드까지 실행하여 result.csv가 잘 생성된 것을 확인했다면, pd.DataFrame({'pred': pred}).to_csv('result.csv', index=False)print (pd.read_csv('result.csv')) 여기에서 바로 '제출' 버튼만 누르면 result.csv의 제출이 완료되는게 맞는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출 작업형 2 결과값 소수자리수 질문
안녕하세요. 3회 기출 작업형 2 결과값 질문드립니다.예시답안은 소수점 여섯째자리까지 나왔는데저는 소수점 두자리까지 나왔습니다..채점해보니 0.7817221067221068이 나오긴 했습니다.강의에서 제가 놓친 부분이 있을까요.표현 자리수의 별도 설정이 필요한지, 코딩의 미흡함인지 알고싶습니다.답변 부탁드립니다. 감사합니다.(강의와 동일하게 수치형 4컬럼 - 로버스트 스케일링, 범주형 - 원핫인코딩, 분리 및 병합 X,원핫인코딩만 적용해도 동일한 자리수 결과)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경 2유형 pred 제출 관련
체험환경 문의하기로 고객의 예측 성별(0: 여자, 1:남자) 에서 평가지표는 ROC_AUC이고 (pred 결과 양성일 확률)CSV파일 예시는 0, 1 로 되어있어 (pred 결과 0, 1) 어떤형식으로 제출하는게 맞는건지 문의해봤는데저렇게 답이왔어요. 아무리 생각해도 이상한데 뭐가 맞는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모의고사 1유형
모의고사 1회 입니다아래 코드에 틀린건 없을까요?최종적으로 제출할때 print는 여기에 1개만 있어야하는거죠?print(roc_auc_score(y_val, pred[:,1])) 평가지표에 print 하면 안되는거맞죵? 확인부탁드립니다. #기출1회 import pandas as pd train = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv") #***********************데이터확인 # print(train.shape, test.shape) # print(train.head()) #target=성별# print(test.head()) #문자형2개# print(train.info()) #결측치 있음# print(train.isnull().sum())# 환불금액 2295# print(test.isnull().sum())# 환불금액 1611 #***********************전처리 *결합it인 #결측치제거/있음train['환불금액']=train['환불금액'].fillna(0)test['환불금액']=test['환불금액'].fillna(0) #train합치기/없음# pd.concat([X_train, y_train['성별']],axis=1) #id없애기/있음train= train.drop('회원ID',axis=1)test_id= test.pop('회원ID') #t타켓target=train.pop('성별') #인코딩from sklearn.preprocessing import LabelEncoder# from sklearn import preprocessing# print(dir(preprocessing))# print(help(preprocessing.LabelEncoder)) cols= train.select_dtypes(include='object').columns for col in cols : le= LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) #***********************분리from sklearn.model_selection import train_test_splitfrom sklearn import model_selection# print(dir(model_selection))# print(help(model_selection.train_test_split))X_tr, X_val, y_tr, y_val = train_test_split( train, target, test_size=0.2, random_state=2022) #***********************모델from sklearn.ensemble import RandomForestClassifier# model= RandomForestClassifier(random_state=0)model= RandomForestClassifier(random_state=0, max_depth=7, n_estimators=1000)model.fit(X_tr, y_tr)pred= model.predict_proba(X_val) #***********************평가from sklearn.metrics import roc_auc_score# from sklearn import metrics# print(dir(metrics))# print(help(metrics.roc_auc_score))print(roc_auc_score(y_val, pred[:,1])) # 0.6186558526810393 (random_state=0)# 0.6641618297401879 (random_state=0, max_depth=7, n_estimators=1000) #***********************예측pred= model.predict_proba(test)[:,1]result= pd.DataFrame({ 'pred':pred}) #***********************저장result.to_csv('result.csv', index=False)print(pd.read_csv('result.csv'))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실행결과 전체보기
안녕하세요.시험환경에서 데이터프레임이 해당 이미지처럼 중간에 생략되지 않고 전체적으로 보는 방법이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
패널티, 1-오즈비 값 문의
# 작업형3 # 문제1. 주어진 조개 데이터 300개 중 앞에서부터 210개는 train 데이터로 만들고, 나머지 90개는 test데이터로 만든다. # 모델을 학습(적합)할 때는 train데이터를 사용하고, 예측할 때는 test데이터를 사용한다. # 모델은 로지스틱 회귀를 써서 성별(gender)을 예측하되, 패널티는 부과하지 않는다. # 문제1-1. weight를 독립변수로 gender를 종속변수로 사용하여 로지스틱 회귀 모형을 만들고, # weight 변수가 한 단위 증가할 때 수컷일 오즈비 값은? (반올림하여 소수 넷째자리까지 계산)이 문제에서패널티는 부과하지 않는다. --> 만약 패널티를 "부과하라"는 문제가 나오면 어떤 공식을 추가해야 하나요?수컷일 오즈비 값은? --> "암컷"일 오즈비 값은? 이라는 문제가 나오면 어떻게 해야 하나요? 1에서 오즈비 값을 빼면 되나요?
-
미해결실리콘밸리 엔지니어와 함께하는 Apache Airflow
airflow와 postgres간의 connection 오류
airflow와 postgres 간의 connection 오류 문제입니다.airflow UI -> admin-> connections에서 postgres 연결설정docker-compose.yaml 설정 dag 코드입력 airflow tasks test postgres_loader execute_sql_query 2023-01-01 시에 오류가 뜹니다ㅠ[2024-06-21T15:40:45.514+0900] {dagbag.py:545} INFO - Filling up the DagBag from /home/kim/airflow/dags [2024-06-21T15:40:45.805+0900] {taskinstance.py:2076} INFO - Dependencies all met for dep_context=non-requeueable deps ti=<TaskInstance: postgres_loader.execute_sql_query __airflow_temporary_run_2024-06-21T06:40:45.755970+00:00__ [None]> [2024-06-21T15:40:45.811+0900] {taskinstance.py:2076} INFO - Dependencies all met for dep_context=requeueable deps ti=<TaskInstance: postgres_loader.execute_sql_query __airflow_temporary_run_2024-06-21T06:40:45.755970+00:00__ [None]> [2024-06-21T15:40:45.812+0900] {taskinstance.py:2306} INFO - Starting attempt 1 of 1 [2024-06-21T15:40:45.812+0900] {taskinstance.py:2388} WARNING - cannot record queued_duration for task execute_sql_query because previous state change time has not been saved [2024-06-21T15:40:45.813+0900] {taskinstance.py:2330} INFO - Executing <Task(PostgresOperator): execute_sql_query> on 2023-01-01 00:00:00+00:00 [2024-06-21T15:40:45.855+0900] {taskinstance.py:2648} INFO - Exporting env vars: AIRFLOW_CTX_DAG_OWNER='airflow' AIRFLOW_CTX_DAG_ID='postgres_loader' AIRFLOW_CTX_TASK_ID='execute_sql_query' AIRFLOW_CTX_EXECUTION_DATE='2023-01-01T00:00:00+00:00' AIRFLOW_CTX_TRY_NUMBER='1' AIRFLOW_CTX_DAG_RUN_ID='__airflow_temporary_run_2024-06-21T06:40:45.755970+00:00__' [2024-06-21T15:40:45.858+0900] {taskinstance.py:430} INFO - ::endgroup:: [2024-06-21T15:40:45.870+0900] {sql.py:276} INFO - Executing: INSERT INTO sample_table (key, value) VALUES ('hello', 'world') [2024-06-21T15:40:45.875+0900] {taskinstance.py:441} INFO - ::group::Post task execution logs [2024-06-21T15:40:45.875+0900] {taskinstance.py:2905} ERROR - Task failed with exception Traceback (most recent call last): File "/home/kim/.local/lib/python3.10/site-packages/airflow/models/taskinstance.py", line 465, in _execute_task result = _execute_callable(context=context, **execute_callable_kwargs) File "/home/kim/.local/lib/python3.10/site-packages/airflow/models/taskinstance.py", line 432, in _execute_callable return execute_callable(context=context, **execute_callable_kwargs) File "/home/kim/.local/lib/python3.10/site-packages/airflow/models/baseoperator.py", line 401, in wrapper return func(self, *args, **kwargs) File "/home/kim/.local/lib/python3.10/site-packages/airflow/providers/common/sql/operators/sql.py", line 277, in execute hook = self.get_db_hook() File "/home/kim/.local/lib/python3.10/site-packages/airflow/providers/common/sql/operators/sql.py", line 188, in get_db_hook return self._hook File "/usr/lib/python3.10/functools.py", line 981, in __get__ val = self.func(instance) File "/home/kim/.local/lib/python3.10/site-packages/airflow/providers/common/sql/operators/sql.py", line 150, in _hook conn = BaseHook.get_connection(conn_id) File "/home/kim/.local/lib/python3.10/site-packages/airflow/hooks/base.py", line 83, in get_connection conn = Connection.get_connection_from_secrets(conn_id) File "/home/kim/.local/lib/python3.10/site-packages/airflow/models/connection.py", line 519, in get_connection_from_secrets raise AirflowNotFoundException(f"The conn_id `{conn_id}` isn't defined") airflow.exceptions.AirflowNotFoundException: The conn_id `my_postgres_connection` isn't defined
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
잔차이탈도
기존 강의 내용인 glm을 이용해도 무방한거죵?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
RMSE 방법
안녕하세요. 좋은 강의 잘 듣고 있습니다. 강사님께서 RMSE를 만들 때 함수를 만들어서 사용하시는데mean_square_error를 불러온 다음mean_squared_error(squared=False)를 하면 RMSE가 되는 것으로 알고 있습니다.굳이 함수를 만드는 것보다 더욱 쉬울 것 같은데 함수를 만들어 사용하시는 이유가 궁금합니다. 좋은 강의 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
파라미터 튜닝 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요!이전에 random forest classifier에서는 n_estimators랑 max_depth로 파라미터 튜닝이 가능하다고 말씀해 주셨는데요.제 기억에 분류 모델에서만 적용이 가능했던 것 같은데 Random forest regression에서도 적용해도 되는 걸까요?rf = RandomForestRegressor(random_state=0, n_estimators = 500, max_depth = 5)이렇게요..! 그리고 각 파라미터의 적정 range가 어느 정도인지도 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전체 행,열 보이게 하기
pd.set_option(diplay.max_columns, 'None') 으로 전체컬럼 보기 말씀해주셨는데 혹시 취소하는방법도 알수있을까요? colab에서 지우고 실행해봐도 계속 전체 데이터가 보여서요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
마지막에 result 쉐입이 train데이터 행렬로 출력이 되어서요. 뭐가 잘못되엇을까요??
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 #1.데이터불러오기 import pandas as pd train = pd.read_csv("energy_train.csv") test = pd.read_csv("energy_test.csv") #2.EDA print(train.shape, test.shape) print(train.info()) print(test.info()) print(train.isnull().sum()) print(test.isnull().sum()) print(train.describe()) print(train.describe(include='O')) print(train.head(2)) print(test.head(2)) target = train.pop('Heat_Load') print(train.shape, test.shape) #3.전처리 #범주형->원핫인코딩 train = pd.get_dummies(train) test = pd.get_dummies(train) #4.검증데이터분리 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=10) print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) #5.모델링및평가 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) f1_score(y_val, pred, average='macro') pred = rf.predict(test) submit = pd.DataFrame({ 'pred':pred }) submit.to_csv('result.csv', index=False) df = pd.read_csv("result.csv") print(df.shape)
-
해결됨코딩테스트 [ ALL IN ONE ]
Lowest common ancestor of a binary tree문제 질문❓
Lowest common ancestor of a binary tree문제에서 아래 코드가 정답 코드로 알고 있는데,# Definition for a binary tree node. # class TreeNode: # def __init__(self, x): # self.val = x # self.left = None # self.right = None class Solution: def lowestCommonAncestor( self, root: "TreeNode", p: "TreeNode", q: "TreeNode" ) -> "TreeNode": if root == None: return None left = self.lowestCommonAncestor(root.left, p, q) right = self.lowestCommonAncestor(root.right, p, q) if root.val == p.val or root.val == q.val: return root elif left and right: return root else: return left or right # elif left: # return left # elif right: # return right # else: # reutrn None위 코드에서 아래 부분을 해주는 이유가 무엇인지 궁금합니다.if root.val == p.val or root.val == q.val: return root elif left and right: return root else: return left or right
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 유의사항에 대해 질문드립니다.!
빅분기시험 유의사항에 다음과 같이2유형에서 자동 생성되는 index 칼럼을 제거하라고 나와있는데요.혹시 이 자동 생성되는 index 칼럼 제거의 의미가 마지막에 index = False로 코딩하라는 소리일까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이원분산분석
선생님 이원분산분석에서 한 컬럼이라도 범주형(object) 값이 있다면 모든 컬럼을 C로 감싸주어야할까요? 아니면 해당 범주형 컬럼인 종자만 이렇게 C로 감싸줘도 되는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출 3의 logit
7회 3번의 1번 문제에서weight의 coef 계수가 logit과 glm에서 상이하게 나오는거 같은데 상관없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T2-6 질문있습니다.
안녕하세요,공지로 알려주신 캐글 T2-6(시계열데이터가 있는 문제)를 풀고 있는데요!모델 학습을 하는 과정에서모델 별 평가 점수가 너무 크게 차이 나서 문의드립니다. 우선 풀이와 조금 다른점이 있다면 , 전처리 과정에서 datetime의 년,월,일 뿐만 아니라 시,분,초까지 칼럼으로 추가했다는 점입니다.train.head()선형회귀로 학습했을 때)RMSE : 141.97306616836775R2 : 0.39335324789512727랜덤포레스트로 학습했을 때)RMSE : 44.64624546594813 (하이퍼파라미터 튜닝x)R2 : 0.9400079312167055 모델을 선형회귀로 학습했을 때랑 랜덤포레스트로 학습했을 때 점수차이가 너무 크게 나는데뭔가 잘못된 부분이 있는걸까요..?풀이의 모델들 점수가 오히려 선형회귀모델과 비슷한 0.4 정도가 나오는 것으로 보여서이렇게 유난히 높게 나오는 랜덤포레스트 모델을 선택해도 괜찮은 것인지 궁금합니다.확인 부탁드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 예시문제 T1-16
위 사진과 같이 분산을 구하는 코드만 직접 짜봤는데 KeyError'f1'이라는 오류가 뜨는데 이유가 뭘까요?
-
해결됨[2024] 실무에서 사용하는 클라우드 보안 프로그래밍 (AWS, Python, Terraform)
ModuleNotFoundError: No module named 'pprint' 에러
안녕하세요파이썬 사용 중 제목과 같은 에러가 발생하는데, 따로 건드린 설정 등은 없습니다. 에러는 pip --version, python -m pip install --upgrade pip 등을 사용할 때 발생하고 일반 파이썬 파일 실행 시엔 발생하지 않습니다. (ppirnt 라이브러리 사용시엔 실행x)에러가 발생하는 파이썬 디렉터리에 보니 pprint_1.py 로 되어 있어 pprint.py로 변경하니 에러는 해결되었습니다.혹시 이렇게 파이썬 기본 라이브러리명이 변경되는 경우가 있나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 제출시 질문있습니다
최종 제출시에 train_test_split을 통해 나누어진 X_tr,y_tr을 학습한 모델로 답을 제출하면 X_val 데이터 만큼의 데이터를 학습하지 못해 손해가 발생할 것 같습니다.데이터를 X_tr,X_val,y_tr,y_val 로 나누어서 어떤 모델이 가장 성능이 좋은지 검증한 후에 최종 제출할때는 전체데이터를 다시 학습한 모델로 pred 를 만들어 제출할려고 하는데 이렇게 해도 문제가 없을지 궁금합니다