묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[2024 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
쿠팡 사례처럼 다른 사이트에서 User-Agent로 크롤링이 불가능한 경우
안녕하세요. 혹시 이번 쿠팡 사례처럼 다른 사이트에서 User-Agent로 크롤링이 불가능한 경우 header 선언을 저렇게 해주셨는데, 다른 사이트에서도 만약 User-Agent 로 크롤링이 불가능한 경우 header을 어떻게 선언해야 하는건지 알 수 있을까요? 뭔가 규칙이 있는건지, 그냥 구글링해서 가져와야 하는건지요 ㅠㅠ?
-
해결됨Node.js로 웹 크롤링하기
6-3 proxy-database 관련
sequelize-cli 까지 설치가 된거 같긴 한데... sequelize init 을 누르면 그림과 같이 오류가 떠요~ mac 에서 nvm 도 설치하고, 이것저것 계속 했는데도 잘 안됩니다. 아래 작업도 했는데도, 안돼서 진도를 3시간째 못나가고 있네요. 도움 주시면 감사하겠습니다. ㅠㅠ 정말 열심히 듣고 있는데.. ㅠ
-
해결됨일잘하는 마케터, MD에게 꼭 필요한 파이썬 데이터 분석
6강 셀레니움 module import 관련
안녕하세요 선생님! 수업 감사합니다:)6강에서 웹크롤링 코드 설명해주신 부분 관련입니다.제 연습용 콜랩 노트에서 선생님께서 공유해 주신 코드를 위에서부터 차곡차곡 붙여넣으며 실행해보던 중이었는데요.셀레니움 module import 부분에서부터 정상적으로 실행이 되지 않는 것 같습니다... 하단 오류 메시지를 어떻게 해석해야 할지 몰라, 해결방법 문의드립니다.입력한 코드################################################################################################################################################################ # 2023.07.09 셀레니움 버전업으로 인한 코드 변경 ################################################################################################################################################################ from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.common.by import By import time from time import sleep from bs4 import BeautifulSoup import requests import re import os # Dataframe import pandas as pd df = pd.DataFrame(columns=['idx','star','review']) service = Service(executable_path="chromedriver") options = webdriver.ChromeOptions() options.add_argument('--headless') options.add_argument('--no-sandbox') driver = webdriver.Chrome(service=service, options=options)실행 시 결과 메시지--------------------------------------------------------------------------- WebDriverException Traceback (most recent call last) <ipython-input-21-e1d24ca4db7f> in <cell line: 48>() 46 options.add_argument('--headless') 47 options.add_argument('--no-sandbox') ---> 48 driver = webdriver.Chrome(service=service, options=options) 3 frames /usr/local/lib/python3.10/dist-packages/selenium/webdriver/common/service.py in assert_process_still_running(self) 108 return_code = self.process.poll() 109 if return_code: --> 110 raise WebDriverException(f"Service {self._path} unexpectedly exited. Status code was: {return_code}") 111 112 def is_connectable(self) -> bool: WebDriverException: Message: Service /usr/bin/chromedriver unexpectedly exited. Status code was: 1
-
미해결[2024 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
'블랙핑크' 검색 시에만 오류가 뜨는 현상
안녕하세요. 강사님 아래 코드에서 '블랙핑크' 를 검색할 때 Traceback (most recent call last): File "c:\pratice_crolling\심화1_\03_스포츠 뉴스 크롤링.py", line 52, in <module> print(article_title.text.strip()) ^^^^^^^^^^^^^^^^^^AttributeError: 'NoneType' object has no attribute 'text'다음과 같은 오류가 뜹니다 ㅠㅠ CSS 선택자, 오타도 모두 맞게 확인이 되는데 왜 저 검색어만 오류가 뜰까요ㅠㅠ?# -*- coding: euc-kr -*- # 네이버에서 손흥민, 오승환과 같은 스포츠 관련 검색어 크롤링하기 import requests from bs4 import BeautifulSoup import pyautogui import time search = pyautogui.prompt("어떤 것을 검색하시겠어요?") response = requests.get(f"https://search.naver.com/search.naver?sm=tab_hty.top&where=news&query={search}&oquery=%EC%98%B7%EC%9C%BC%ED%99%98&tqi=i74G%2FdprvTossZPeMhCssssssko-058644") html = response.text soup = BeautifulSoup(html, "html.parser") articles = soup.select(".info_group") for article in articles: # '네이버뉴스' 가 있는 기사만 추출한다. (<a> 하이퍼링크가 2개 이상인 경우에 해당) links = article.select("a.info") if len(links) >=2 : url = links[1].attrs['href'] response = requests.get(url, headers={'User-agent':'Mozila/5.0'}) html = response.text soup = BeautifulSoup(html, "html.parser") # 스포츠 기사인 경우 if "sports" in url: article_title = soup.select_one("h4.title") article_body = soup.select_one("#newsEndContents") # 본문 내에 불필요한 내용 제거 p태그와 div태그의 내용은 출력할 필요가 없다. 없애주자. p_tags = article_body.select("p") # 본문에서 p 태그인 것들을 추출 for p_tag in p_tags: p_tag.decompose() div_tags = article_body.select("div") # 본문에서 div 태그인 것들을 추출 for div_tag in div_tags: div_tag.decompose() # 연예 기사인 경우 elif "entertain" in url: article_title = soup.select_one(".end_tit") article_body = soup.select_one("#articeBody") # 일반 뉴스 기사인 경우 else: article_title = soup.select_one("#title_area") article_body = soup.select_one("#dic_area") # 출력문 print("==================================================== 주소 ===========================================================") print(url.strip()) print("==================================================== 제목 ===========================================================") print(article_title.text.strip()) print("==================================================== 본문 ===========================================================") print(article_body.text.strip()) #strip 함수는 앞 뒤의 공백을 제거한다. time.sleep(0.3)
-
미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
스크래핑 오류
import requestsfrom bs4 import BeautifulSoupres = requests.get('https://v.daum.net/v/20170615203441266')soup = BeautifulSoup(res.content,'html.parser')data = soup.find('div', 'layer body') data.get_text() 을 작성했는데, 'NoneType' object has no attribute 'get_text'오류가 뜨더라고요. 28강에 적힌 스크래핑 코드와 좀 달라서 형식은 같게 넣었는데 오류라, 무엇이 문제인지 알 수 있을까요?
-
미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
서브라임 패널에 폴더 안 뜸
47강을 듣는 와중에, 서브라임 패널에서 폴더를 생성하라 하셨는데, 제 패널에는 folders는없고, open files만 있어서요. 혹시 해당 폴더를 보려면 어디를 눌러야할까요?
-
미해결[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
네이버 상품정보 수집하기에서 상품정보에 광고 정보는 htm
안녕하세요, 스타트코딩 선생님!CSS 선택자 부분 중광고 상품정보 : adProduct_info_area__dTSZf일반 상품정보 : product_info_area__xxCTi이렇게 name 으로 지정할 CSS 선택자가 다르지만,price 로 지정할 CSS 선택자는 price_num__S2p_v 로 두개 모두 동일합니다. 따라서 코드를 작성할 때 상품정보의 수가 일치하지 않는 오류가 생기는 이럴땐 어떻게 해결해야 하는지 알려주세요. 상품정보의 수가 일치하지 않는 부분광고 상품정보 : adProduct_info_area__dTSZf (모두 8개)일반 상품정보 : product_info_area__xxCTi (모두 40개)가격정보 : price_num__S2p_v (모두 48개) 답변 부탁드립니다.감사합니다.
-
해결됨일잘하는 마케터, MD에게 꼭 필요한 파이썬 데이터 분석
데이터 시각화 강의 질문
안녕하세요 강사님데이터 시각화 강의에서 오류코드가 떠질문드립니다.df_covid19 = pd.read_excel("/content/drive/MyDrive/인프런/코로나 확진자수.xlsx")
-
해결됨일잘하는 마케터, MD에게 꼭 필요한 파이썬 데이터 분석
텍스트로 보는 리뷰특성 분석
안녕하세요 강사님 설치 코드 중마지막 코드에서 오류가 뜹니다!mpl.font_manager._rebuild()확인부탁드립니다! 감사합니다.
-
미해결[2024 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
네이버 지도 크롤링 질문있습니다
네이버 지도 크롤링 간 별점 text를 어떻게 추출해야할 지 모르겠습니다. 어떤 태그를 이용해야 아래 4.37이 추출이 될까요??아래 사진은 제 코드 사진입니다
-
미해결Node.js로 웹 크롤링하기
크롤링을 여러개 돌리려면 어떠한 방법을 선택하는게 좋을까요?
안녕하세요, 지금 Puppeteer로 크롤링을 하고있는데 예를들어서 1 ~ 10까지 작업이 각각 있다고했을때 이 10가지의 크롤링 작업을 완료하는데 너무 오래걸려서 Multi Processing 혹은 Multi Thread 방식을 생각하고 있습니다. 둘중에 어떠한게 좋을까요? Puppeteer 1개(node process 1개)로 1~10까지 돌렸을때 너무 오래걸려서 이걸 각각의 작업당 프로세스 1개를 붙힐것인지, 아니면 Process는 하나인데 Worker Thread를 여러개 만들어서 Main 스레드는 1번 작업, 나머지 9개 Worker Thread 생성해서 각각 작업에 한개씩 붙혀서 작업하게끔 하는게 좋을지 고민하고 있는데 혹시 어떠한 방법이 좋을까요 ?혹시 설명이 부족할까봐 좀 구체적으로 예시를 남기면,<기존방식>작업들: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10이름이 main.js인 1개 자바스크립트 파일을 node main.js로 실행 및 이걸로 그냥 1~10까지 작업들을 모두 동기적으로 처리>> 너무 시간이 오래걸림<원하는 방식 및 고민하고 있는 2가지 방식>작업들: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10이름이 main.js인 1개 자바스크립트 파일이 있고 process.argv로 인자를 줘서 아래와 같이 node process를 10개를 생성하여 각각 작업들을 1개의 프로세스들이 실행node main.js 1node main.js 2node main.js 3 ...node main.js 10 이름이 main.js인 1개 자바스크립트 파일이 있고 거기에서 Worker Thread 9개를 만들어서 Main Thread는 1번작업에 붙히고, 만든 9개 Worker Thread를 각각 2,3,4 ~ 10까지의 작업에 각각 한개씩 붙혀서 작업감사합니다
-
미해결실습으로 끝장내는 웹 크롤링과 웹 페이지 자동화 & 실전 활용
똑같이 따라했는데 쿠팡 크롤링이 되질 않습니다 무엇이 문제일까요ㅜㅜ?
강의 내용 외 개인적인 실습 사이트의 질문은 답변이 제공되지 않습니다.문제가 생긴 코드, 에러import requests from bs4 import BeautifulSoup import time bass_url = "https://www.coupang.com/np/search?component=&q=" keyword = input("검색할 상품을 입력하세요 : ") search_url = bass_url + keyword headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36" } cookie = {"a": "b"} time.sleep(1) req = requests.get(search_url, timeout=5, headers=headers, cookies=cookie) #print(req.status_code) html = req.text soup = BeautifulSoup(html, "html.parser") items = soup.select("[class=search-product]") rank = 1 for item in items: badge_rocket = item.select_one(".badge.rocket") if not badge_rocket: continue name = item.select_one(".name") price = item.select_one(".price-value") thumb = item.select_one(".search-product-wrap-img") link = item.a["href"] print(f"{rank}위") print(name.text) print(f"{price.text} 원") print(f"https://www.coupang.com/{link}") if thumb.get("date-img-src"): img_url = f"http:{thumb.get('date-img-src')}" else: img_url = f"http:{thumb['src']}" print(img_url) print() # img_req = requests.get(img_url) # with open(f"C:\soncoding\coupang{rank}.jpg", "wb") as f: # f.write(img_req.content) rank += 1 타임까지 걸어보고 쿠키까지 한번 변경을 해봤는데 계속 뜨질 않습니다. 베이스는 강사님의 코드와 똑같이 적었습니다!
-
미해결[2024 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
첫페이지 크롤링하기 오류
안녕하세요!! 바꿔서 올려주신 강의자료 복사해서 사용해도 작동하지 않습니다!!맥북 사용중이라 혹시나해서 유저 에이전트 값을Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 으로 변경해서 진행했는데도 값이 나오지 않아요!! 확인부탁드립니다.! import requests from bs4 import BeautifulSoup main_url = "https://www.coupang.com/np/search?component=&q=usb%ED%97%88%EB%B8%8C&channel=user" # 헤더에 User-Agent, Accept-Language 를 추가하지 않으면 멈춥니다 header = { 'Host': 'www.coupang.com', 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Language': 'ko-KR,ko;q=0.8,en-US;q=0.5,en;q=0.3', } response = requests.get(main_url, headers=header) html = response.text soup = BeautifulSoup(html, 'html.parser') links = soup.select("a.search-product-link") # select의 결과는 리스트 자료형 print(links)
-
해결됨일잘하는 마케터, MD에게 꼭 필요한 파이썬 데이터 분석
ChatGPT 실무에 100% 활용하기와 중복 내용 관련 문의드립니다.
현재 일잘하는 마케터, MD에게 꼭 필요한 파이썬 데이터 분석 이라는 수업을 듣고 있습니다.최근에 ChatGPT 실무에 100% 활용하기 라는 수업이 생겨서 수강 여부를 고민중에 있습니다.챕터만 보게되면 중복되는 부분이 꽤 있는 것 같은데, 중복으로 들을 필요가 있을지? 어떤 점이 다른지 궁긍하여 문의드립니다.
-
해결됨일잘하는 마케터, MD에게 꼭 필요한 파이썬 데이터 분석
5강 코드 질문
안녕하세요 강사님같은 강의에 여러 번 질문 드려 죄송합니다.실무에 적용하려고 복습을 하다가 안되는 부분이 있어 또 질문 드리게 되었습니다.element = driver.find_element(By.XPATH, shoppingmall_review)위 코드에서 오류가 뜹니다..또 셀레니움이 업데이트 된 걸까요? 업데이트 된 코드는 어디서 확인하나요?위 사진 첨부드립니다. 추가로 마지막 코드도 실행이 안됩니다.
-
미해결[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
검색어 입력 후 창이 꺼집니다.
스크롤 내리기 코드가 실행되기 전에 크롬 창이 꺼집니다. input()도 써봤지만 해결이 안 되어 질문합니다.
-
미해결[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
네이버 창이 뜨지 않고 에러가 뜹니다
뭐가 문제인가요?
-
해결됨일잘하는 마케터, MD에게 꼭 필요한 파이썬 데이터 분석
안녕하세요 강사님! 5강 추가 질문 드립니다.
driver.find_element(By.XPATH, category_total).click() #스크롤 건드리면 안됨-> 위 코드 오류 원인이 뭘까요??
-
미해결[2024 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
선생님!! 강의 정말 잘 듣고 있습니다. 몇주째 해결이 안되는 문제가 있어서 문의 드립니다.
감사합니다. 선생님 잘 해결되었습니다~~~
-
해결됨Node.js로 웹 크롤링하기
네이버 영화 평점 크롤링 (axis cheerio)
네이버 영화 평점 axios cheerio 를 이용하여 현재 기준으로 해보려고 하는데... 평점 출력이 안됩니다.개발자 도구 보고, 맞게 태그 지정을 한거 같은데요 ㅠㅠ