묻고 답해요
144만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결초보자를 위한 ChatGPT API 활용법 - API 기본 문법부터 12가지 프로그램 제작 배포까지
카카오톡 채널 및 챗봇 생성하기 1분 30초에서 진행하고 있는데요
카카오톡 채널 및 챗봇 생성하기 1분 30초에서 진행하고 있는데요. 채널 홍보가 어디있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 3회 작업형2 예측부분 오류
몇 번을 봐도 선생님과 동일하게 코드를 작성했는데 이부분에서 ValueError가 나네요 ㅠㅠ혹시 어디부분 코드 수정 필요한지 알려주시면 감사하겠습니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 결측치 채울 때 기준데이터
피처 엔지니어링 강의 시작부분 데이터 전처리 로직 관련 질문입니다.데이터전처리 X_test 결측치를 채울 때 클래스, 국가의 경우 X_test의 최빈값을 사용하고, 나이나 주당 근무시간은 X_train 평균을 사용하는데 어떤건 X_train을 사용하고, 어떤건 X_test를 사용하는 이유가 있는걸까요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 5번 질문
안녕하세요 선생님!작업형1 모의문제 2번의 문제5를 풀고 있는데,다른 인강에서 알려준 syntax로 코딩하는데 이렇게 하니 outlier 검출이 안되더라구요.문법적으로는 오류가 없어 보이는데 혹시 이 syntax는 틀린 걸까요?? q1 = np.quantile(df['views'], 0.25) q3 = np.quantile(df['views'], 0.75) iqr = q3-q1 print(iqr) lower = q1 - iqr*1.5 upper = q3 + iqr*1.5 outliers = (df['views'] < lower) | (df['views'] > upper) sum_out = sum(outliers) print(sum_out)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출4회 작업형 2 오류(샘플수)
# 라이브러리 불러오기import pandas as pd # 데이터 불러오기train = pd.read_csv("train.csv")test = pd.read_csv("test.csv") # EDAtrain.shape, test.shapetrain.head()test.head()train.info()train.isnull().sum()train['Segmentation'].value_counts() # 변수값 처리target = train.pop('Segmentation')train = train.drop('ID', axis=1)test_id = test.pop('ID') # 피처엔지니어링train = pd.get_dummies(train)test = pd.get_dummies(test) # 데이터분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_tr = train_test_split(train, target, test_size=0.2, random_state=2024)X_tr.shape, X_val.shape, y_tr.shape, y_tr.shape>> ((5332, 28), (1333, 28), (1333,), (1333,)) # 모델구축 및 평가from sklearn.ensemble import RandomForestClassifierfrom xgboost import XGBClassifierfrom sklearn.metrics import f1_score [에러부분] 샘플갯수가 안맞다고 하는거 같은데 해결방법을 모르겠어요.rf = RandomForestClassifier(random_state=2024) rf.fit(X_tr, y_tr) pred = rf.fit(X_val) print(f1_score(y_val, pred))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
.str이 생각이 안날때 찾는 방법 있나요?
string 값을 슬라이스 하는게 .str인데..이게 생각이 안날때 help같은 걸 사용해서 찾는 방법이 있을가요?
-
미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화 전과정 익히기) [데이터분석/과학 Part2]
피벗테이블 열 추가
section 9 듣다가 피벗테이블 질문있어요 코드 : doc_covid2 = pd.pivot_table(doc_covid, index=['Country_Region'], values=['Confirmed'], aggfunc={'Confirmed': 'sum'}, fill_value=0, margins=True, margins_name='Total' )같은 경우 말그대로 doc_covid 에서 피벗테이블을 만드는데 Country_Region 에 대해서 Confirmed 를 더한 값을 컬럼으로 만드는 내용이잖아요 혹시 여기서 열을 추가 하는게 가능한 건가요?? Confirmed의 median 값을 컬럼으로 만드는 열을 추가 하고 싶은데 가능한건지요 ... 라고 질문글을 썼는데 혹시 몰라 그냥 구글에 검색하니까 aggfunc=['sum','median'] 이라 쓰면 됐었네요... 다른 분들에게도 도움 되시라고 그냥 남깁니다.
-
미해결파이썬 동시성 프로그래밍 : 데이터 수집부터 웹 개발까지 (feat. FastAPI)
몽고DB 설정 관련 질문
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. FastAPI + MongoDB : MongoDB ODM 셋업 강의를 듣고 있는데 궁금한 점이 생겨서요!섹션4에서 몽고DB 데이터베이스 설정할 때 "nest"로 프로젝트명을 설정하여 해당 url도 받고 했었는데 섹션5에서는 프로젝트명도 바뀌고 url도 바껴서요. 제가 "nest" 설정했던 것처럼 새로 "fastapi-pj" 프로젝트 만들어서 url 받고 secret.json에 넣으면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의고사 풀어보기 (columns명 추출)
작업형1-2s1, s2, s3, s4, s5, s6, 컬럼의 행(row)별 합을 구하고 그 합이 0.1보다 큰 값의 수를 구하시오풀이를 보면 문제에서 요구하는 컬럼명을 아래와 같이 수기로 입력하여 cols에 대입하였는데요.cols = ['s1', 's2', 's3', 's4', 's5', 's6']수기로 입력하지 않고 컬럼명을 추출하는 방법이 있는지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형2)
RandomForestClassifier 에서pred=r.predict_proba(X_val)[:,1] 로 적혀있는데이전 회차까지는 (X_val)까지로만 공부했는데이번 문제에서는 [:,1]이 추가된 이유가 뭔지 궁금해요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
predict, predict_proba 차이
3-5 classification 강의 학습중인데,predict, predict_proba 차이가 잘 이해가 되지 않습니다.어떤 경우에 따라서 두 함수를 나누어쓰는걸까요?
-
미해결실습으로 끝장내는 웹 크롤링과 웹 페이지 자동화 & 실전 활용
lst = lst50 + lst100 이거 대신에
import requests from bs4 import BeautifulSoup headers = { "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36" } url = "https://www.melon.com/chart/index.htm" req = requests.get(url, headers=headers) html = req.text soup = BeautifulSoup(html, "html.parser") lst50 = soup.select(".lst50") lst100 = soup.select(".lst100") # lst = lst50 + lst100 if lst50: lst = lst50 elif lst100: lst = lst100 else: print("!!!!!!!!!!!!!") # 자식선택자 > 는 바로 밑에 있을 때만 가능. 바로 밑에 있는게 아닐 때는 그냥 한칸 띄고 입력! for i in lst: title = i.select_one(".ellipsis.rank01 a") singer = i.select_one(".ellipsis.rank02 > a") album = i.select_one(".ellipsis.rank03 > a") print(title.text) print(singer.text) print(album.text) print() # for rank, i in enumerate(lst50, 1): # title = i.select_one(".ellipsis.rank01 a") # print(f"{rank} : {title.text}") # print() print(len(lst)) lst = lst50 + lst100 대신에 앞 시간에 설명해주셨던 if, elif, else 를 사용해봤는데 데이터가 50개만 나오는데, 왜 100개가 다 안나오는 건가요? 무슨 차이가 있는건지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩에서 X_train을 쓰는이유?
제가 이해한게 맞다면 원핫인코딩은 범주형 데이터에 쓰는 것이기 때문에기존에 n_train, c_train으로 각각 나누고라벨인코딩은 c_train으로 le.fit_transform을 하였습니다.그런데 왜 원핫인코딩은 갑자기 X_train으로 하는것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 6번
소수점 제거를 위해서 round( , 0) 사용하는 풀이 알려주셨는데요 % 연산자로 나머지가 0이 아닌 조건 걸어서 풀어도 상관 없을까요?# your code import pandas as pd df = pd.read_csv('members.csv') print(df.shape) cond1 = df['age'] <=0 df = df[~cond1] print(df.shape) cond2 = df['age'] %1 !=0 df = df[~cond2] print(df.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출 작업형 2 질문입니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 이 부분에서 왜 갑자기 y_true 가 쓰이는지 이해가 잘 가지 않습니다 ! rmse 에 대한 설명도 부탁드립니다. from sklearn.metrics import mean_squared_error def rmse(y_true, y_pred): return mean_squared_error(y_true, y_pred)**0.5
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오징어게임 접속 불가
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요분명히 가입하여 접속했었는데요오늘 들어가니 아이디 비번이 모두 틀리다고 나옵니다.접속이 안되고 있습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이 강의가 비전공 초짜 대상 맞나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요빅분기 실기 준비중입니다. 결제전에 초심자용이라고 해서 들어왔습니다.그런데 처음 변수부터 변수 설명을 안 해주시네요.개념을 좀 설명 하고 나서 들어가야 비전공 초짜 대상 강의 아닌가요?각각의 변수를 왜 사용하는지 개념부터 알고 들어가야 하는데바로 진행하시니 이걸 왜 하는지 이해 못하면서 따라가다 멈추고 유튜브 영상에서 도움받아가면서 보고 있습니다. 이 강의가 비전공자 초짜 대상 맞나요?
-
미해결Airflow 마스터 클래스
데이터 엔지니어 업무 초보자가 궁금한 점 질문드립니다..
선생님 안녕하세요! 덕분에 Airflow에 대해 깊이 있게 공부하고 있습니다! 감사합니다. 다름이 아니라 Airflow를 잘 쓰고자 하는 마음에 질문드립니다!제가 지금 구축해야하는 환경이 Google Cloud 기반에서 DataLake와 Warehouse를 구축 해야 하는 상황에서 Airflow 강의를 참고해 도입 예정에 있습니다. 사 내 인프라 팀은 잘 갖춰져 있으나 데이터팀은 아직 미약한 상태에요.. 구글링 해서 살펴보았을 때 Airflow의 전처리의 대부분이 BigQuery의 SQL을 통해원하는 데이터를 가져와 전처리하는 로직으로 구성되어 있는거 같더라구요. 저는 Pandas라는 라이브러리가 익숙한 것도 있고 SQL 쿼리로 관리하기보다Pandas 코드로 관리하고자하는 마음에 Airflow와 Pandas의 조합은 어떻게 쓰면 좋다라거나 참고 블로그에 대해 알고싶고 또 선생님 조언을 들어보고 싶습니다 ㅠㅠ 아직 Airflow를 완전히 이해하지 못했지만 걱정되는 점은Pandas 사용 시 데이터를 읽었을 때 인메모리에 많은 양의 데이터가 올라가주의하지 않으면 구축하려는 Cloud Composer의 스펙이 오버될거 같은 느낌이 들어서요.. 또 다른 궁금한 점은 전처리 구간이 많을 수록 BigQuery에 저장하면서 불러들이는 식으로 작업하시는 지도 궁금합니다!! 장애 발생 시 어떤 구간에서 발생했으며 Retry 시 저장하면서 가야 정확한 에러 구간에 대해 모니터링이 가능해보여서요.. 마지막으로.. dags를 관리하는 아키텍쳐? 방안에 대해서 유행하거나 픽스된 방법론이 있는 지도 궁금해요백엔드의 디자인패턴과 유사한.. 질문이 많죠.. 백엔드하다 데이터 엔지니어 업무가 처음이다 보니 궁금한게 많네요.. 다시 정리를 하면 질문은 아래와 같습니다. 긴 글 읽어주셔서 감사합니다 ( _ _ )Airflow와 Pandas 조합을 사용하고자 할 때 선생님의 조언이 궁금합니다.전처리 구간 마다 생기는 View Table이 데이터 양이 많을 때 저장하는 지 궁금합니다.git에서 dags를 관리하는 방법론이 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형(작업형1), 문제2
len(df) * 0.8 df = df.iloc[:80] df.isnull().sum() std1 = df['f1'].std() print(std1) #std1 = 20.574853076621935 m = df['f1'].median() # 중앙값은 68 df['f1'] = df['f1'].fillna(m) df.isnull().sum() #결측치채워진것 확인 std2 = df['f1'].std() print(std2) print(abs(std1-std2)) 2회기출유형(작업형1) 문제2를 따라하다가, 질문드립니다. 위와 같이 해서 17.010788646613268 17.010788646613268 0.0이렇게 std1 과 std2 값이 같게 나왔는데..제가 주석처리한것보면 처음에는 제대로 나왔었거든요.처음에 80%데이터 iloc에 80을 그냥 숫자로 적은것과 관련이있는가싶은데, 설명부탁드립니다.
-
미해결파이썬을 활용한 머신러닝 딥러닝 입문
션 7. CNN (Convolutional Neural Network)의 7번째 강의는 실습 - FashionMNIST 데이터셋 이용 실습 문제 풀이 관련 강의 내용순서 문의
섹션 7. CNN (Convolutional Neural Network) - 합성곱 신경망 6번째 실습 - 문제 설명 (LeNet 모델 구축 - MNIST 데이터셋 이용)의 끝부분이 one hot encoding인데 다음 7번째 강의는 실습 - FashionMNIST 데이터셋 이용 실습 문제 풀이로 앞의 강의 Mnist 손글씨에 대한 코드 설명 부분이 빠진 것 같아 연결이 잘 안됩니다.... 원래 영상이 그런지 확인 부탁드려요. 감사합니다.