인프런 커뮤니티 질문&답변

ms님의 프로필 이미지
ms

작성한 질문수

[2024 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)

-

requests, soup로 크롤링 했을때 안가져와지는 경우 어떻게 해야하나요?

작성

·

517

·

수정됨

0

안녕하세요.

문의드려요.

 

실전으로 쇼핑몰들 크롤링 해보고 있는데요.

상품 상세 페이지라면 가격, 브랜드명 이런건 되는데,

상품 상세 정보 부분은 크롤링이 안되더라고요.

 

  • 지그재그 등

header에 에이전트 모질라 넣어도 안되고..

 

그리고 어떤 사이트는 res.statusCode 찍어보면 403이나 404가 오는 사이트도 있고..

 

위 두가지 유형처럼 막혀있을 경우  뚫을 수 있는 방법이 있을까요?

답변 2

0

스타트코딩님의 프로필 이미지
스타트코딩
지식공유자

안녕하세요.

코딩을 가장 쉽게 알려주는 크리에이터 스타트코딩입니다.

 

1) 쇼핑몰 크롤링 답변

상품의 가격, 브랜드명은 정적인 부분인데 반해

상품의 상세 부분은 동적인 부분일 것 같습니다.

 

즉, ajax 크롤링 방식을 사용하거나 셀레니움을 통해 크롤링 해야 할 겁니다.

사이트 URL과 가져오려고 하는 부분을 말씀 해주시면 한번 확인해보겠습니다.

 

2) 응답 코드에 대한 답변

404 : Page not Found 오류

없는 페이지 URL을 요청했을 때 발생하는 응답코드입니다.

403 : Forbidden 오류

권한이 없는 요청에 대한 거절 시 발생하는 응답코드입니다. 강의 예제 중 네이버 뉴스 크롤링에서 다뤘습니다.

header를 user-agent 말고 더 추가하거나, 셀레니움으로 크롤링 하시면 됩니다.

마찬가지로 사이트 URL과 가져오려고 하는 부분을 말씀 해주시면 한번 확인해보겠습니다.

 

3) iframe에 대한 답변

네이버 지도 크롤링 예제 부분에서 자세히 설명되어 있습니다.

0

ms님의 프로필 이미지
ms
질문자

iframe 밑에

#document로 이중(?) 구조로 된 것도 크롤링 할수있는 방법이 있을지 문의드려요

ms님의 프로필 이미지
ms

작성한 질문수

질문하기