묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결실습으로 끝장내는 웹 크롤링과 웹 페이지 자동화 & 실전 활용
쿠팡 이미지 파일 다운받기에서 동일하게 코드 작성 후 요청하였지만 파일 다운로드가 안됩니다.
쿠팡 상품 썸네일 전체 다운받기 강의에서동일하게 코드 작성 후 실행하였지만, 다른 크롤링 정보는 정상작동하지만, 파일이 지정된 폴더로 다운이 되지 않습니다. <작성한 코드>import requests from bs4 import BeautifulSoup base_url = "https://www.coupang.com/np/search?component=&q=" keyword = input("검색할 상품을 입력하세요 : ") url = base_url + keyword headers = { "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36" } cookie = { "a" : "b" } req = requests.get(url, timeout=5, headers=headers, cookies=cookie) html = req.text soup = BeautifulSoup(html, "html.parser") items = soup.select("[class=search-product]") rank = 1 for item in items: badge_rocket = item.select_one(".badge.rocket") if not badge_rocket: continue name = item.select_one(".name") price = item.select_one(".price-value") thumb = item.select_one(".search-product-wrap-img") link = item.select_one("a")['href'] print(f"{rank}위") print(item["class"]) print(name.text) print(f"{price.text} 원") print(f"https://www.coupang.com{link}") # print(thumb) if thumb.get("data-img-src"): img_url = f"http:{thumb.get('data-img-src')}" else: img_url = f"http:{thumb['src']}" print(img_url) print() img_req = requests.get(img_url) with open(f"07_coupang/{rank}.jpg", "wb") as f: f.write(img_req.content) rank+=1 키워드는 '노트북'이고, 저장하려는 폴더 이름은 07_coupang, 위치는 "C:\project\Webcrawling\07_coupang" 입니다.어떤 것이 문제일까요?
-
미해결[2024 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
requests 라이브러리를 활용한 쿠팡 로그인 가능 여부
안녕하세요.쿠팡에서 제가 주문한 주문내역을 크롤링하고 싶은데, 우선 로그인이 필요하겠더라구요.로그인 화면 URL은 https://login.coupang.com/login/login.pang 이고,주문 내역 URL은 https://mc.coupang.com/ssr/desktop/order/list 인데,제가 아는 모든 방법을 동원해도 session.post 요청을 날리면 무한로딩에 빠져버리네요..강사님께서는 requests 라이브러리를 이용한 쿠팡 로그인이 가능한 지 여쭤봅니다.제가 작성한 코드를 아래 남깁니다.import requests login_url = "https://login.coupang.com/login/login.pang" user = 'EMAIL' password = 'PASSWORD' login_data = dict() login_data['email'] = user login_data['password'] = password header = { 'Host': 'www.coupang.com', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:76.0) Gecko/20100101 Firefox/76.0', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Language': 'ko-KR,ko;q=0.8,en-US;q=0.5,en;q=0.3', } with requests.Session() as session: res = session.post(login_url, data = login_data, headers=header) url_order = 'https://mc.coupang.com/ssr/desktop/order/list' res = session.get(url_order) print(res.content)
-
미해결[2024 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
쿠팡에서 검색된 상품에 대한 광고클릭으로 인해..
쿠팡 검색 결과 저장 관련해서 광고상품 제거 코드를 넣어도 상품단에 접속하는게 아닌가 싶습니다아래 수집된 URL 를 보면ads 클릭 이벤트 아이디가 생성되는걸로 보입니다그렇다는건 검색광고를 클릭했다는 말인데 문제 발생 소지 있지 않을까 걱정됩니다. https://www.coupang.com//vp/products/6445801857?itemId=13971883834&vendorItemId=81441184342&sourceType=srp_product_ads&clickEventId=98e60fc6-9d41-46a6-a201-850240aa16fe&korePlacement=15&koreSubPlacement=12&clickEventId=98e60fc6-9d41-46a6-a201-850240aa16fe&korePlacement=15&koreSubPlacement=12
-
미해결
파이썬웹스크래핑 질문드려요~
무료로 공유해주신 유투브 영상으로 웹크롤링을 즐겁게 배우고 있습니다 다름이 아니라, 강의 중에 (2:07:32)부분에서 쿠팡의 상품명을 크롤링 하는 부분에서 ad상품을 제외하는 부분이 있는데 여러개의 li중, ad-badge를 가진 첫번째 li항목이 아무래도 나오지 않네요 출력을 해봐도 다른 li의 search-product만 나올뿐. search-product search-product__ad-badge인 광고 항목은 출력이 되지 않습니다. 어떤 이유가 있는지 알려주시면 감사하겠습니다 좋은강의 공유해주셔서 정말 감사합니다 items = soup.find_all("li",attrs={"class":re.compile("^search-product")}) for test in items : classname = test["class"] print("classname : ", classname) PS C:\Users\SpaceHQ_DC\Dropbox\Study\webcroling> c:; cd 'c:\Users\SpaceHQ_DC\Dropbox\Study\webcroling'; & 'C:\Python38\python.exe' 'c:\Users\SpaceHQ_DC\.vscode\extensions\ms-python.python-2021.7.1060902895\pythonFiles\lib\python\debugpy\launcher' '55594' '--' 'c:\Users\SpaceHQ_DC\Dropbox\Study\webcroling\9_bs4_coupang.py' loading classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] classname : ['search-product'] PS C:\Users\SpaceHQ_DC\Dropbox\Study\webcroling>