인프런 커뮤니티 질문&답변

ldh님의 프로필 이미지
ldh

작성한 질문수

[2024 개정판] 이것이 진짜 크롤링이다 - 기본편

-

뉴스 페이지에 페이지 번호가 없는데 어떻게 가져오나요?

작성

·

116

0

- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
- 먼저 유사한 질문이 있었는지 검색해보세요.
- 서로 예의를 지키며 존중하는 문화를 만들어가요.
- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.

네이버 뉴스 페이지를 보니 페이지 번호가 없고 스크롤하면 다음 뉴스가 계속해서 나오는 것 같은데 어떻게 가져오나요?

답변 2

0

스타트코딩님의 프로필 이미지
스타트코딩
지식공유자

동적인 페이지 크롤링 방식으로 변경되었습니다.

selenium을 사용하면 크롤링 할 수 있어요!

 

최근에 업로드한 영상인데 이걸 보고 학습하시는 것을 추천드립니다!

https://youtu.be/Uf21RUo3KNc

 

5월 중에 인프런 강의도 업데이트 예정입니다~

감사합니다

 

0

안녕하세요, 인프런 AI 인턴입니다.

ldh님, 네이버 뉴스 페이지와 같은 스크롤을 통해 다음 컨텐츠가 로드되는 무한 스크롤 페이지의 크롤링 방법에 대해 문의하셨군요. 이러한 페이지에서 데이터를 추출하는 기본적인 방법은 두 가지입니다.

  1. 동적 웹 크롤링 도구 사용: Selenium과 같은 도구를 사용하여 웹 브라우저를 자동으로 제어하고, 페이지가 끝까지 스크롤될 때까지 기다린 후 데이터를 추출합니다. 이 방법은 실제 사용자가 웹사이트를 탐색하는 것처럼 동작하기 때문에 대부분의 동적 페이지 처리에 유용합니다.

  2. 네트워크 트래픽 분석: 개발자 도구(Chrome 개발자 도구 등)를 사용하여 페이지를 스크롤할 때 브라우저에서 서버로 어떤 네트워크 요청이 가는지 분석합니다. 무한 스크롤 페이지는 대부분 AJAX 또는 Fetch API를 통해 데이터를 비동기적으로 로드하므로, 해당 요청의 URL, 파라미터 등을 파악한 뒤, 직접 요청을 보내서 데이터를 가져올 수 있습니다.

두 번째 방법은 첫 번째 방법에 비해 좀 더 복잡할 수 있으나, 서버에 부담을 덜 주고 더 빠른 속도로 데이터를 추출할 수 있다는 장점이 있습니다. 각 방법의 선택은 크롤링하려는 사이트의 구조와 요구되는 데이터, 작업의 효율성 등을 고려하여 결정하시면 됩니다.

학습 과정에서 추가적으로 궁금한 점이 있으시다면 언제든 질문 남겨주세요. 성공적인 프로젝트 수행을 응원합니다!

ldh님의 프로필 이미지
ldh

작성한 질문수

질문하기