묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 한가지 방법으로 풀기
#train['환불금액']=train['환불금액'].drop#test['환불금액']=test['환불금액'].droptrain=pd.get_dummies(train)test=pd.get_dummies(test)target=train.pop('성별')from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train,target,test_size=0.2,random_state=0)from sklearn.ensemble import RandomForestClassifiermodel=RandomForestClassifier(random_state=0)model.fit(X_tr,y_tr)pred=model.predict(test)submit=pd.DataFrame({'pred':pred})submit.to_csv('result.csv',index=False)a=pd.read_csv('result.csv')print(a.head()) 위와 같이 한가지방법으로 풀기와 동일하게 진행하였는데 model.fit(X_tr,y_tr) 에서 오류가 납니다. 결측치가 있는 '환불금액'열을 삭제해도 동일한데 한가지방법으로 푸는 코드에 오류나 잘못된 부분이 있을가요?.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target 값이 object이면 검증하기전에 항상 int형으로 변경해야되나요?
안녕하세요? target 값이 object이면 검증하기전에 항상 int형으로 변경해야되나요? RandomForest 나 lgb 사용할 경우에는 그냥 안해도 되는거죠....
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다시 학습을 할 필요가 있을까요?
안녕하세요검증용 데이터로 나눈 후 학습을 하면 비교적 적은 데이터로 학습이 될텐데요. 그러면 성능 확인 후 검증용데이터로 나누기전의 데이터로 다시 학습시키는 것이 좋을까요?
-
미해결직장인에게 꼭 필요한 파이썬-아래아한글 자동화 레시피
13-2. 녹화된 스크립트매크로를 파이썬에서 활용하는 방법 --- 강의 내용이 안보입니다.
한글 자동화 관련해서 공부할 강의 분량이 너무 많아서 완강은 아직 엄두도 안나고, 그냥 쭉 한 번씩 구경(?)하던 중이었는데요. 13-2. 녹화된 스크립트매크로를 파이썬에서 활용하는 방법이 강의에서는 내용이 전혀 뜨지 않네요. (아래 캡처) 제 컴퓨터 환경에 문제가 있는 것일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
교재 내용 질문, 결측치 인코딩 관련
안녕하세요, 강의와 교재로 공부하고 있습니다.교재 작업형2 ch4 회귀 부분에서트레인 테스트 데이터를 합친 후범주형 데이터를 레이블 인코딩 한 후 다시 트레인 테스트로 쪼개고결측치를 채우는 최솟값, 최빈값으로 채우는 과정으로 진행이 되는데요, 레이블 인코딩 과정에서 범주형데이터의 결측치가 하나의 값으로 인코딩이 되어서결측치가 존재하지 않아 중앙값으로 결측치를 대체하는 과정이 불필요한 것 같은데 맞을까요? 또한 원핫 인코딩을 사용하려는 경우 결측치를 먼저 대체한 후에 인코딩을 해야 오류가 안나는게 맞을까요?일반적으로 결측치 처리를 인코딩 후에 하는지 전에 하는지 궁금합니다.감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
logit 모델 구성시 독립변수 교호작용은 안구해도 되는지요
logit 모델 구성시 독립변수 교호작용은 안구해도 되는지요?7회 1-2에서 강의에서는 주효과만 구해서 풀어주셔는데, 교호작용까지 하면 값이 좀 달라져서 문의드립니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 질문
작업형2 모델 분석 및 결과 제출에 대해 질문이 있습니다. 회귀분석을 예로들면 랜덤포레스트회귀, XGB회귀, 릿지, 라쏘 등 다양한 모델을 사용해서 모델 마다 도출하는 값이 다른고 그 중 가장 높은 값(r2값이나 mse 값 등 문제에서 평가로 제시된 지표)을 사용한다고 알고 있습니다. val데이터로 학습을하고 가장 높은 값을 찾아서 마지막에 pred = model.predict(test)로 대입하는데, 모델을 선택하는 과정이 없는 것 같습니다. 이렇게 두개의 모델을 사용해서 각각 값을 도출해서 위와 같은 값이 나왔고 이런식으로 test데이터를 예측값에 적용하는데 위 두개에 모델중에 더 나은 모델을 선택하는 과정이 없는건가요??두개의 모델이 다 활성화 되어있는데 저렇게 밑에 model.predict만 적어놓으면 이 모델이 xgb인지 랜덤포레스트인지 어떻게 인식하는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
판다스 환경설정
판다스 환경설정을 하라고 하셨는데 어떻게 해야set_option 코딩 없이 모든 컬럼을 한번에 볼 수 있는가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모의고사 문제3번 풀이
모의고사 문제 3번 풀이 관해서 질문 드려요!문제 3번 풀이가 방법이 총 세가지로 풀이 해주셨는데 ( replace, map, 조건)혹시 시험에서 저런 류의 문제에서 결측치랑 데이터값을 변경하라는 문제에서 어떤 특정한 풀이를 이용해서 풀라고도 나오기도 하나요?아니면 저 세개중에 한가지 방법만 사용해서 답만 구해도 상관 없는건가요!?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험에서 minmax scale
스케일링 방법 2 한가지만 딱 알고 시험치러 가도 되나요?
-
해결됨실리콘밸리 엔지니어와 함께하는 OpenAI API (ChatGPT)
assistant에서 file 업로드 하고 쓰레드 사용시 token 사용 및 사용 방법 문의
Assistant 기능으로 데이터를 tagging 하는 봇을 만들려고 합니다.tagging에 관한 정보를 file에 업로드 하고 필요한 내용을 bot을 통해 묻고 답으로 tag list를 받아 보려고 하는데요, 이 때 file로 질문 마다 새로운 thtread를 만들어서 질문을 하게 되면 file을 확인할때는 매번 token을 사용한걸로 처리가 되고 비용이 청구 될까요?이런 목적으로 하는 경우에는 file 보다는 fine-turing이 더 좋을까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증 데이터 분리 시 질문입니다.
from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop('charges',axis=1), train['charges'], test_size=0.15, random_state = 2022) X_tr.shape, X_val.shape, y_tr.shape, y_val.shape 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!먼저 선생님의 코드는 위와 같았습니다. 아래는 제가 수정해서 작성한 코드입니다.from sklearn.model_selection import train_test_split X_train = train.drop('charges', axis = 1) y_train = train['charges'] X_tr, X_val, y_tr, y_var = train_test_split(X_train, y_train, test_size = 0.15, random_state= 2002) -------> 보기 편하려고 이렇게 넣었더니 y_var을 찾을 수 없다는 에러가 나왔음헷갈리지 않기 위해 이와 같이 변수로 처리한 뒤 train_test_split을 했더니 X_train.head를 찍어도 선생님과 다른 결과가 나오고평가 수식을 적은 후 linear regression을 하니 y_val이 정의되지 않았다고 에러가 나옵니다. 이유가 무엇인지 한참 고민해도 알아내지 못해서 질문 남깁니다. 답변해 주시면 감사하겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 object 삭제
안녕하세요.선생님은 baseline으로 object를 drop하고 머신러닝 모델을 돌리셨는데 그렇게 하시는 이유가 있나요? object를 삭제하는 것이 일반적인가요 아니면 인코딩해서 포함하는 것이 일반적인지요 시험 때 어떻게 해야할지 조금 헷갈려서요~
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리 기준 질문드립니다!
선생님 안녕하세요!현재 작업형2 연습을 하고 있는데 데이터 전처리 과정에서어떤 문제는 object형 모두를 삭제하고, 어떤 문제에서는 int, float, object형 각각 일부 선택해서 삭제 또는 결측치 입력 후 검증 하던데선생님은 어떤 기준으로 나누는지 아니면 어떤 기준을 가지고 나누면 도움이 되는지 궁금합니다!
-
미해결[2024 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
페이지를 변수에 넣고 for 문으로 클릭해서 넘기려고 하는데 에러가
강사님 도움을 요청합니다. 아래의 문제로 몇일을 끙끙이다 현재의 본인의 수준으로는 해결을 못해서 염치불구 하고 도움을 구합니다.사이트에서 페이지 넘기기가 안됩니다. 코드를 올립니다.마지막 부분 반복문에서 순차적으로 다음 페이지로 넘기려고 하는데 다 넘어가지 못하고 에러가 납니다.페이지를 변수에 담아 프린트 해보면 8개의 페지가 찍이는데반복문으로 넘어가서는 8개의 페지로 순차적으로 이동이 안되고 걸립니다.코드는 아래와 같이 했습니다. 바쁘실줄 알지만 길이 없어 문의하니 한번 봐주시면 감사하겠습니다.import requests from bs4 import BeautifulSoup import pandas as pd from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys import time from selenium.webdriver.support.select import Select driver = webdriver.Chrome() # 사이트 불러 오기 url = 'https://ctx.cretec.kr/CtxApp/ssp/selectSbarPmtnList.do' driver.get(url) # 로그인 user_id = '' user_pw = '' # 로그인 완료 후 신바람 화면으로 넘어감 id = driver.find_element(By.CSS_SELECTOR, '#ctxId' ) id.send_keys(user_id) time.sleep(1) pw = driver.find_element(By.CSS_SELECTOR,'#password') pw.send_keys(user_pw) time.sleep(1) login = driver.find_element(By.CSS_SELECTOR, '#ctxUserVO > button') login.click() time.sleep(3) tag = driver.find_element(By.CSS_SELECTOR,'#content-container > div.content > div.content-body > div > div.sub_promo_cnt > div:nth-child(24) > div.promore > span') driver.execute_script("arguments[0].scrollIntoView(true)", tag) time.sleep(5) tag.click() tag2 = driver.find_elements(By.CSS_SELECTOR, '#list ul li.cur-pager > a') time.sleep(5) print(len(tag2)) time.sleep(5) for i in tag2: time.sleep(10) print(i.text) time.sleep(15) i.click() time.sleep(10)
-
미해결FastAPI 완벽 가이드
가상환경 관련 질문있스니다.
선생님 강의에서는 아나콘다를 사용하셨는데, 저는 pipenv를 사용하고싶거든요..콘다 말고 다른 가상환경을 사용해도 괜찮을까요?
-
미해결남박사의 파이썬으로 봇 만들기 with ChatGPT
<InlineQuery 활용 주변 맛집 검색 봇 만들기>에 맛집 링크 접속 시 403 에러가 뜹니다
https://map.naver.com/p/api/smart-around/places?searchCoord=127.108519%3B36.817412&boundary=127.09854112852958%3B36.807207632892144%3B127.1187113403231%3B36.82744325030478&code=01&limit=20&sortType=RECOMMEND&timeCode=AFTERNOON위 링크인데, 아무래도 현재 막힌 것 같습니다ㅠㅠ영상 재촬영이 어렵다면 보충 설명이라도 추가 가능할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분석기사
다중분류에서도 똑같이 타겟 y값만 따로 빼두고 train_x 와 test를 합친후 전처리하고 원핫인코딩을 적용한후 다시 분류하면 라벨인코딩을 사용하지 않아도 될까요?그리고 문제에서 제출 형식을 predict_proba()[:1] 로 하는 경우도 제시해주나요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 문제 모음 노션페이지
캐글 문제 모아놓은 노션페이지 강의에서 보여주시는데 어디서 볼수있을까요? 캐글 사이트로 바로들어가면 너무 뒤죽박죽이어서요 ㅠㅠ..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 처리관련 질문입니다.
안녕하세요 결측치 관련 질문드립니다1.시험에서 test 데이터가 주어질시제가 test데이터 행을 삭제하지 않아야 하는것은 인지했습니다.그러나 test 데이터의 결측치를 제 임의대로 값을 넣어도 되는것인가요?강의를 보니 이상치를 컨트롤하는 케이스는 거의없으나결측치는 object는 최빈값 int,float은 중앙값이나 0 을 대입하는데모든경우에 통일되는 방법인가요?혹은 시험장에서 여러가지 결측치 처리 방법을 전부 알고가서 하나하나 검증하며가장 값이 높은걸 넣어야 하나요시험장에서 A로 평가하겠다 하면 검증을 통해 나오는 수치가 A를통해 보통 몇 이상이 나와야 제출할수 있을까요?