인프런 커뮤니티 질문&답변

창희님의 프로필 이미지
창희

작성한 질문수

[2024 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)

셀레니움 환경설정

마지막 페이지 관련

작성

·

206

0

안녕하세요~! 몇가지 궁금증이 있어 문의 드립니다!

 

  1. 네이버 뉴스 기사가 페이지 넘버링이 아닌,

    스크롤식으로 변경된 것으로 확인됩니다.

    이러한 경우에는 마지막 기를 어떻게 확인할 수 있을까요? (

    굳이 마지막 페이지를 확인할 이유가 없을 것 같긴 하지만ㅎㅎ 그래도 궁금하네요 )

 

2.

f'https://search.naver.com/search.naver?ssc=tab.news.all&where=news&sm=tab_jum&query={keyword}&start={i}'

 

이전 강의에서 확인하였던, &start={i}을 추가하여 네이버 뉴스 기사 결과를 수집해본 결과, 계속해서 수집이 되긴 했습니다.

제 생각에는 연관도가 높은순 → 낮은순으로 출력되는 것 같은데 맞는지도 궁금하네용ㅎㅎ

답변 2

0

스타트코딩님의 프로필 이미지
스타트코딩
지식공유자

저도 얼마전에 네이버 뉴스 페이지가 완전 바뀐 것을 보고

실전편을 리뉴얼 해야 겠다는 생각을 했습니다 🙂

 

수강생분이 똑똑하셔서 제대로 캐치하신 것 같아요

질문하신 내용 전부 맞습니다.

 

  1. 네이버 뉴스 기사가 페이지 넘버링이 아닌,

    스크롤식으로 변경된 것으로 확인됩니다.

    이러한 경우에는 마지막 기를 어떻게 확인할 수 있을까요? (

    굳이 마지막 페이지를 확인할 이유가 없을 것 같긴 하지만ㅎㅎ 그래도 궁금하네요 )

-> 무한 스크롤 처리 방식으로 구현 가능합니다

아래 유튜브 영상 5:55 을 참고해 보세요!

https://youtu.be/qRU94vtUb7c

 

검색량이 많은 검색어의 경우 끝도없이 내려가네요.

검색어가 적은 걸로 마지막페이지를 테스트해보면 좋을 거 같습니다.

ex) 미옹이

 

  1. 이전 강의에서 확인하였던, &start={i}을 추가하여 네이버 뉴스 기사 결과를 수집해본 결과, 계속해서 수집이 되긴 했습니다.

    제 생각에는 연관도가 높은순 → 낮은순으로 출력되는 것 같은데 맞는지도 궁금하네용ㅎㅎ

 

-> 신기하게도 네이버에서 기존 방식을 그대로 나뒀습니다 ㅋㅋ

기본 정렬방식이 관련도순으로 되어 있습니다. 관련도에 대한 정확한 알고리즘은 아무도 모릅니다.

그래서 순서는 항상 바뀔 수 있어요.


0

안녕하세요, 인프런 AI 인턴입니다.

창희님, 웹 크롤링과 관련하여 질문해주셨군요.

  1. 네이버 뉴스 기사가 스크롤 형식으로 변경된 경우, 일반적으로 마지막 페이지를 확인하는 것이 어려워집니다. 대신, API 응답이나 페이지 스크립트 등에서 종료 조건을 제공할 수 있습니다. 또는 특정 조건(예: 더 이상 데이터가 없을 때 나타나는 요소)이 출현할 때까지 페이지를 스크롤하며 데이터를 수집하는 방법이 사용될 수 있습니다.

  2. &start={i} 파라미터를 사용하여 페이지를 이동하며 데이터를 수집한 경우, 보통 검색 결과는 연관도 순서대로 정렬되어 표시됩니다. 하지만, 네이버 뉴스 검색 결과의 정확한 정렬 방식이나 알고리즘은 네이버 내부 정책에 따라 결정되므로, 외부에서 정확히 알 수는 없습니다. 일반적으로는 사용자에게 가장 유용하거나 관련성이 높은 결과를 우선으로 보여주려는 의도가 있을 것입니다.

궁금하신 점이 더 있으시다면 언제든지 질문해주세요!

창희님의 프로필 이미지
창희

작성한 질문수

질문하기