묻고 답해요
144만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결Airflow 마스터 클래스
데이터 엔지니어 업무 초보자가 궁금한 점 질문드립니다..
선생님 안녕하세요! 덕분에 Airflow에 대해 깊이 있게 공부하고 있습니다! 감사합니다. 다름이 아니라 Airflow를 잘 쓰고자 하는 마음에 질문드립니다!제가 지금 구축해야하는 환경이 Google Cloud 기반에서 DataLake와 Warehouse를 구축 해야 하는 상황에서 Airflow 강의를 참고해 도입 예정에 있습니다. 사 내 인프라 팀은 잘 갖춰져 있으나 데이터팀은 아직 미약한 상태에요.. 구글링 해서 살펴보았을 때 Airflow의 전처리의 대부분이 BigQuery의 SQL을 통해원하는 데이터를 가져와 전처리하는 로직으로 구성되어 있는거 같더라구요. 저는 Pandas라는 라이브러리가 익숙한 것도 있고 SQL 쿼리로 관리하기보다Pandas 코드로 관리하고자하는 마음에 Airflow와 Pandas의 조합은 어떻게 쓰면 좋다라거나 참고 블로그에 대해 알고싶고 또 선생님 조언을 들어보고 싶습니다 ㅠㅠ 아직 Airflow를 완전히 이해하지 못했지만 걱정되는 점은Pandas 사용 시 데이터를 읽었을 때 인메모리에 많은 양의 데이터가 올라가주의하지 않으면 구축하려는 Cloud Composer의 스펙이 오버될거 같은 느낌이 들어서요.. 또 다른 궁금한 점은 전처리 구간이 많을 수록 BigQuery에 저장하면서 불러들이는 식으로 작업하시는 지도 궁금합니다!! 장애 발생 시 어떤 구간에서 발생했으며 Retry 시 저장하면서 가야 정확한 에러 구간에 대해 모니터링이 가능해보여서요.. 마지막으로.. dags를 관리하는 아키텍쳐? 방안에 대해서 유행하거나 픽스된 방법론이 있는 지도 궁금해요백엔드의 디자인패턴과 유사한.. 질문이 많죠.. 백엔드하다 데이터 엔지니어 업무가 처음이다 보니 궁금한게 많네요.. 다시 정리를 하면 질문은 아래와 같습니다. 긴 글 읽어주셔서 감사합니다 ( _ _ )Airflow와 Pandas 조합을 사용하고자 할 때 선생님의 조언이 궁금합니다.전처리 구간 마다 생기는 View Table이 데이터 양이 많을 때 저장하는 지 궁금합니다.git에서 dags를 관리하는 방법론이 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형(작업형1), 문제2
len(df) * 0.8 df = df.iloc[:80] df.isnull().sum() std1 = df['f1'].std() print(std1) #std1 = 20.574853076621935 m = df['f1'].median() # 중앙값은 68 df['f1'] = df['f1'].fillna(m) df.isnull().sum() #결측치채워진것 확인 std2 = df['f1'].std() print(std2) print(abs(std1-std2)) 2회기출유형(작업형1) 문제2를 따라하다가, 질문드립니다. 위와 같이 해서 17.010788646613268 17.010788646613268 0.0이렇게 std1 과 std2 값이 같게 나왔는데..제가 주석처리한것보면 처음에는 제대로 나왔었거든요.처음에 80%데이터 iloc에 80을 그냥 숫자로 적은것과 관련이있는가싶은데, 설명부탁드립니다.
-
미해결파이썬을 활용한 머신러닝 딥러닝 입문
션 7. CNN (Convolutional Neural Network)의 7번째 강의는 실습 - FashionMNIST 데이터셋 이용 실습 문제 풀이 관련 강의 내용순서 문의
섹션 7. CNN (Convolutional Neural Network) - 합성곱 신경망 6번째 실습 - 문제 설명 (LeNet 모델 구축 - MNIST 데이터셋 이용)의 끝부분이 one hot encoding인데 다음 7번째 강의는 실습 - FashionMNIST 데이터셋 이용 실습 문제 풀이로 앞의 강의 Mnist 손글씨에 대한 코드 설명 부분이 빠진 것 같아 연결이 잘 안됩니다.... 원래 영상이 그런지 확인 부탁드려요. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
공식예시문제 작업형2 에러코드
공식예시문제 작업형2 에러코드 문의 드립니다. [파일첨부]import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv") train['환불금액'] = train['환불금액'].fillna(0)test['환불금액'] = test['환불금액'].fillna(0)# print(train.isnull().sum()) # 수치형 데이터 전처리cols = ['총구매액', '최대구매액', '환불금액', '방문일수', '방문당구매건수', '주말방문비율', '구매주기']from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()train[cols] = scaler.fit_transform(train[cols])test[cols] = scaler.fit(test[cols])# print(train.head()) # 오브젝트형 데이터 전처리cols = train.select_dtypes(include='O').columnstrain = pd.get_dummies(train, columns=cols)test = pd.get_dummies(test, columns=cols)print(train.head()) # 데이터 분리 from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train.drop('성별', axis=1), train['성별'], test_size=0.2, random_state=2024) # 모델&평가from sklearn.ensemble import RandomForestClassifierfrom sklearn.metrics import roc_auc_scorerf = RandomForestClassifier(random_state=2024, max_depth=7, n_estimators=200)rf.fit(X_tr, y_tr)pred = rf.predict_proba(X_val)[:, 1]print(roc_auc_score(y_val, pred))# 0.6882619421394 여기까지는 에러없이 평가까지 잘되는데...#제출pred = rf.predict_proba(test)이걸 넣으면 아래처럼 에러가 떠요. 뭐가 문제일까요...ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
에어비엔비 가격 문제 중 오브젝트 컬럼 삭제 관련 문의입니다.
오브젝트 컬럼을 인코딩 하지 않고 삭제해도 성능에는 지장이 없나요?추가로 test에는 id를 쓸거라 pop으로 빼논 이유는저장해야되는 값에 id를 요구해서 그런건가요?test에 id값이 있으면 안되는 이유나 오류가 나는 이유가 train값이랑 컬럼이 동일해야 해서인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출문제 원핫인코딩 관련 질문입니다.
원핫인코딩 시, 만약에 test 데이터에 train에서 포함하지 않은 값이 있어 컬럼이 하나 더 생기는 상황이 발생한다면레이블인코딩으로 진행해야 하나요?
-
미해결처음하는 파이썬 백엔드 FastAPI 부트캠프 (FastAPI부터 비동기 SQLAlchemy까지) [풀스택 Part1-2]
MYSQL 맥북 오류
안녕하세요 mysql 을 설치 했습니다 인텔맥북프로 입니다. 수십번깔아보고 지워보고 했는데도 스타트가 안됩니다. ㅠㅠ 심지어 8.0.31 버전 맞춰서 설치했는데도 안됩니다. 터미널 상태도 올립니다. 그전에 도커에서 mysql 이미지 생성도 잘됐는데... 빠른 답변 부탁드려요 ㅠㅠ
-
해결됨[2024 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
동적 페이지 이동 크롤링 방법 문의
안녕하세요, 상세 페이지 내용 크롤링에서 막혀 있다가 이번에 올려주신 리뉴얼 강의 덕분에 해결했습니다.그런데 페이지 이동에서 다시 막혔습니다.아래는 제가 만든 코드입니다. 첫번째 페이지는 잘됩니다.from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.chrome.options import Options from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup import time import requests from webdriver_manager.chrome import ChromeDriverManager chrome_options = Options() chrome_options.add_experimental_option("detach", True) service = Service(executable_path=ChromeDriverManager().install()) driver = webdriver.Chrome(service=service, options=chrome_options) driver.implicitly_wait(5) driver.maximize_window() driver.get("https://www.dbpia.co.kr/search/topSearch?searchOption=all&query=%EA%B0%80%EC%A7%9C%EB%89%B4%EC%8A%A4") html = driver.page_source soup = BeautifulSoup(html, 'html.parser') articles = soup.select("article.thesisWrap") for article in articles: title = article.select_one("h2.thesis__tit").text info = article.select_one(".thesisAdditionalInfo").text link = 'https://www.dbpia.co.kr' + article.select_one(".thesis__summary > a").attrs['href'] response = requests.get(link, headers={'User-Agent':'Mozilla/5.0'}) html = response.text soup = BeautifulSoup(html, 'html.parser') try: abstract = soup.select_one("div.abstractTxt").text except: " " print(title,info,abstract) 수업에서는 1페이지, 2페이지.... 이렇게 바뀔 때 url이 바뀌는 경우를 알려주셨는데제가 크롤링하려는 페이지는 매우 고약하게도...url이 바뀌지 않습니다.첫페이지 다음의 두번째 페이지부터 계속 url에 '#a'만 붙습니다. 이런 경우 1페이지 다음 2페이지, 3페이지 등 다음 페이지 내용을 크롤링할 수 있는 방법이 있을까요? 해당 사이트 url입니다.https://www.dbpia.co.kr/search/topSearch?searchOption=all&query=%EA%B0%80%EC%A7%9C%EB%89%B4%EC%8A%A4#a 1.<전체 화면> <확대 화면: URL> <확대 화면 : F12 - 소스코드> driver.find_element(By.CSS_SELECTOR, ".dpPaging__link:nth-of-type(1) ").click()이렇게 페이지에 따라 CSS 선택자를 만들고 숫자만 바꿔서 하려고 했는데for문을 적용할 수가 없네요.... 실전편에서 동적 페이지 크롤링 강의 오픈 예정이던데 이런 내용도 다뤄주시면 감사하겠습니다.
-
해결됨실전! FastAPI 입문
섹션 테스트 코드 오류..
버전 문제가 아닌 거 같아서 문의 드립니다.. 구글링 해도 안 나와서 질문 드립니다..ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1번 공부하다가 질문이 있어 남깁니다.
안녕하세요. 작업형 1번 공부하다가 의문점이 있어 질문 남깁니다.혹시 작업형 1번을 풀 때, 중간에 csv 파일을 제출하고 해당 csv 파일을 불러와서 다시 작업을 이어가도 괜찮을까요?예를들어 행이 1~100까지의 DataFrame이 있는데 결측치 처리를 한다고 20개의 행을 날려서 80개의 행만 남았습니다. 근데 행이 중간중간 날라가서 index 번호를 보니까 0 1 2 4 6 7 8 10 이렇게 군데 군데가 비어있습니다. for문을 사용할 때, 해당 DataFrame을 loc으로 처리하면 중간에 비어있는 index 번호 때문에 오류가 납니다. 그래서 이렇게 결측치 처리된 csv 파일을 중간에 to_csv로 보내고, 해당 파일을 다시 불러오면 index가 0~80까지 이쁘게 나오더라고요. 혹시 이러한 방법이 문제가 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문 판다스기초1에서..
DataFrame.drop() takes from 1 to 2 positional arguments but 3 were given열 삭제 부분에서 axis = 1 실행할땐 잘 되었는데 앞을 생략해서 1만 쓰고 다시 해서 이런 오류가 뜹니다. 어떻게 할 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션3 작업형1 모의고사 풀어보기 1-3 문제 질문드립니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요~섹션3 작업형1 모의고사 풀어보기 1-3 문제에서 '고유한 값'이 가장 많은 칼럼을 구하라고 했는데, 고유한 값이라는게 중복 데이터가 아닌 값들의 갯수를 구하는 건가요? 지금 이해가 안가는게 뭐냐면, nuique함수를 쓰면 고유한 값의 갯수가 400 이상 되는데, 실제로 data의 크기는 (5,31)니까 고유한 값은 최대 5개 이상 안되는거 아닌가요?? nuique가 어떤 값을 의미하는지 잘 모르겠습니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라이브러리 및 데이터 불러오기 그리고 EDA 데이터 합치기 나누기
라이브러리 및 데이터 불러오기 그리고 EDA 강의를 듣고있는데, 데이터를 나누고 합치는데 그 기준은 무엇인가요? 강의 끝부분에서 x_train, y_train 데이터를 합치고, train 을 x,y 로 나누던데 어떤 기준으로 합치기를 하고 income만 남기고 왜 또 나누는건지 감을 못잡겠습니다. 데이터를 힙치고 나눠야한다는 기준은 어떤 기준을 잡아서 실행해야 할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라이브러리 및 데이터 불러오기 그리고 EDA 강의 합치기 나누기
라이브러리 및 데이터 불러오기 그리고 EDA 강의를 듣고있는데, 데이터를 나누고 합치는데 그 기준은 무엇인가요? 강의 끝부분에서 데이터를 합치고, 나누던데 어떤 기준으로 합치기를 하고 income만 남기고 왜 또 나누는건지 감을 못잡겠습니다. 데이터를 힙치고 나눠야한다는 기준은 어떤거로 잡아서 실행해야 할까요?
-
미해결프로그래밍 시작하기 : 파이썬 입문 (Inflearn Original)
안녕하세요 !! 파이썬 강의자료 부탁드립니다!
안녕하세요 파이썬 강의 자료 부탁드립니다 7146884@naver.com 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T1-6 문제에서 iloc
문제 : T1-6. 결측치 제거 및 그룹 합계 Expected Questionshttps://www.kaggle.com/agileteam/py-t1-6-expected-questions 문의 내용 : 'city가 경기이면서 f2가 0'인 조건에 만족하는 f1 값을 구할 때df.iloc[0, 0]["f1"] 이 아니라 왜 df.iloc[0]["f1"] 이렇게 입력해야 하는지 궁금합니다!
-
미해결[2024 리뉴얼] 처음하는 SQL과 데이터베이스(MySQL) 부트캠프 [입문부터 활용까지]
JOIN문과 서브쿼리 작성 관련
파이널 SQL 연습의 연습문제 1에 대한 질문입니다. (1분 38초)포괄적인 질문이 될 수 있겠으나, 해당 연습문제에 대해 서브쿼리를 사용하여 구문을 만들어보려고 하였는데 논리적으로 짜는 것에 한계를 느꼈습니다. (애초에 연습문제1에 대해 서브쿼리를 사용하는 것이 가능한지 아닌지, 가능한데 못하고 있는 건지에 대한 판단조차 서지 않아서 여쭙고 싶었습니다.) JOIN문 작성이 어느 정도 가능하다면, 서브쿼리 단련에 그렇게 힘을 쓰지 않아도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3유형 데이터 전처리에 대해
예를 들어 회귀분석에서 설명변수 표준화, 이상치 처리, 반응변수 로그변환 등 전처리를 통해 모델 성능을 높일 수 있잖아요.전처리에 따라 계수추정치, p value가 달라질 수 밖에 없는데, 계수추정치와 p value를 묻는 문제에서는 전처리한 결과를 바탕으로 정답 작성하면 오답처리 되나요?3유형은 정답이 있다고 들었습니다. 사람마다 전처리 과정이 다 다를텐데 정답이 있을 수 있다는게 잘 이해가 안돼요. 아니면 3유형은 무조건 전처리 없이 풀어야 하나요??
-
해결됨코딩테스트 [ ALL IN ONE ]
스택 안에 왜 -1과 1이 들어가는지 궁금합니다.
안녕하세요 코딩 테스트를 공부하고 있는데 이해가 안 되는 부분이 있어 글을 올립니다.5행에 있는[-1]이 cur_day를 가리키고[1]이 cur_temp를 가리키는 걸로 이해를 하고 있습니다.궁금한 점: 제가 이해한 부분이 맞는다면 왜 스택 부분에 -1과 1이 들어가는지 궁금합니다.
-
미해결파이썬 알고리즘 문제풀이 입문(코딩테스트 대비)
5-4. 후위식 연산 괄호 질문
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 안녕하세요. 강의 잘 듣고 있습니다!혹시 풀이해주신 코드에서 괄호는 고려하지 않는 이유가 있을까요?