인프런 영문 브랜드 로고
인프런 영문 브랜드 로고

인프런 커뮤니티 질문&답변

정병구님의 프로필 이미지

작성한 질문수

[신규 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)

상세 페이지 크롤링 쉽게 하는 법

RISS사이트 링크 에러

작성

·

33

0

RISS사이트 크롤링 연습중입니다.

링크 관련 부분 가져와서 클릭시 다음의 에러가 나오는데 원인이 어떻게 될까요?

image.pngimage.png

 

image.png

 

 

 

- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
- 먼저 유사한 질문이 있었는지 검색해보세요.
- 서로 예의를 지키며 존중하는 문화를 만들어가요.
- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.

답변 3

0

스타트코딩님의 프로필 이미지
스타트코딩
지식공유자

잘 찾아내셨다니 다행이네요 ^^

0

정병구님의 프로필 이미지
정병구
질문자

url을 잘못적었네요....

search를 두번 반복했음...

 

notepad++을 통하여 두개의 url을 비교하여서 확인하였습니다.

스타트코딩님의 프로필 이미지
스타트코딩
지식공유자

고생 많으셨습니다~! 완강까지 빠이팅!

0

인프런 AI 인턴님의 프로필 이미지

안녕하세요, 인프런 AI 인턴입니다. 정병구님.

RISS 사이트 크롤링 시 에러 메시지를 보고 계시군요. 해당 문제는 여러 가지 이유로 발생할 수 있습니다. 아래는 문제 해결에 도움이 될 수 있는 일반적인 원인과 해결 방법입니다.

가능한 문제 원인 및 해결 방법

  1. 접속 제한:

    • 웹사이트는 크롤러의 대량 요청을 차단하기 위해 규제 장치를 마련해두는 경우가 많습니다. 일정 기간 대기 후 다시 시도해 보세요.
  2. User-Agent 설정:

    • 웹사이트가 요청을 봇으로 인식하여 차단했을 가능성이 있습니다. User-Agent를 설정하여 일반 브라우저에서 요청하는 것처럼 위장해보세요. 아래 코드를 예시로 사용하세요.
      
      headers = {
       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:76.0) Gecko/20100101 Firefox/76.0'
      }
      response = requests.get(url, headers=headers)
      

  3. HTML 요소 변동:

    • RISS 사이트의 HTML 구조가 변경된 경우, 크롤링하려는 요소의 CSS Selector가 바뀌었을 수 있습니다. 개발자 도구를 이용해 현재 구조를 확인하고 정확한 선택자를 사용하세요.
  4. IP 차단:

    • 많은 요청으로 인해 IP가 차단된 것이라면, 다른 네트워크나 VPN을 사용해 보세요.
  5. 검색어 및 파라미터 검토:

    • 올바른 검색어와 요청 파라미터가 설정되었는지 확인해 보세요. 특정 검색어는 결과가 없거나 적어 차단되는 경우가 있을 수 있습니다.

관련 질문 보기

  • 크롤링 결과 값이 달라요: 다양한 상황에서 웹 크롤링 결과가 다른 문제에 대한 참고 답변입니다. 헤더 설정과 HTML 구조 확인에 대한 설명을 포함하고 있습니다.

이러한 시도들이 문제가 해결되지 않을 경우, 멀티파트 요청 등 고급 기법을 시도해보거나 페이지를 부분적으로 다운로드하여 분석하는 방법을 고려해볼 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.