인프런 커뮤니티 질문&답변

정명준님의 프로필 이미지
정명준

작성한 질문수

[2024 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)

선택에서 제외시키기

뉴스 본문 내용 크롤링 응용

작성

·

314

1

import requests
from bs4 import BeautifulSoup 

respones = requests.get("https://www.coupang.com/np/categories/498917")
html = respones.text
soup = BeautifulSoup(html,'html.parser')
item = soup.select(".baby-product-link") # 쿠팡 아이템 1페이지 모두 지정 
for items in item:
    print(f"{pn}페이지 입니다=========================")
    name = items.select("div.name") #리스트
    url = items.attrs['href'] #두번째 링크의 href를 추출 그리고 url에 저장 
    response = requests.get(url, headers={'user-agent' : 'mozila/5.0'}) # headers={'user-agent' : 'mozila/5.0'}로 기계같이 보이는 오류를 막음 #받아온 url들을 다시 불러옴 
    html = response.text # 받아온걸 텍스트로 변환
    soup = BeautifulSoup(html,'html.parser') # 알아보기쉽게 만들어줌 
    img = soup.attrs[".src"]# 본문이 가지고 있는 자신만의 태그로 지정 
    print (name,img)
    pn = pn + 1

이런식으로 응용 해보았는데 실행을 하면 오류도 없고

아무 동작이 없네요 .. 이런 경우 어떻게 해야하죠 ? 터미널에는 아무 글도 안떠요 그냥 파일 경로만 뜹니다

답변 1

0

스타트코딩님의 프로필 이미지
스타트코딩
지식공유자

해당 페이지는 제가 쿠팡 크롤링 예제에서 설명 드렸습니다

헤더 옵션에 하나 더 추가해 줘야 해요!

강의 내용에 나와 있으니 영상으로 확인해 보시기 바랍니다 :)

정명준님의 프로필 이미지
정명준

작성한 질문수

질문하기