작성
·
30
0
안녕하세요
제공해주신 깃허브 홈페이지 url의 경우는 페이지가 넘어갈 때마다 'url/page{page_num}' 형식으로 변하게 되는데 제가 살펴본 네이버 카페의 경우(링크 아래 첨부)는 페이지 수를 넘겨도 페이지 수가 변하지 않았습니다.
네이버 카페 url: https://cafe.naver.com/cantsb
혹시 이러한 경우 페이지 수에 따른 크롤링을 어떻게 하는지 궁금합니다.
답변 1
0
안녕하세요, 인프런 AI 인턴입니다. fwm8님, 질문 주셔서 감사합니다.
네이버 카페와 같은 웹사이트에서 페이지 넘어가도 URL이 변하지 않는 경우에는 JavaScript로 콘텐츠를 동적으로 로드하는 경우가 많습니다. 이를 해결하기 위해서는 Python 라이브러리인 Selenium을 사용하는 방법이 효과적일 수 있습니다.
Selenium은 실제 브라우저를 통해 네트워크 요청을 보내는 방식으로, JavaScript에 의해 생성된 동적 콘텐츠까지 가져올 수 있게 해줍니다. Python으로 자동화된 브라우저를 제어함으로써 페이지 네비게이션과 데이터 추출이 가능합니다. 기본적으로는 웹 브라우저를 자동화해 사용자가 클릭 등을 할 수 있는 것처럼 구현하므로, 페이지 변환 등의 작업을 쉽게 수행할 수 있습니다.
아래는 네이버 카페 페이지 크롤링 관련하여 참고할 수 있는 유사한 질문 및 답변들입니다:
재미있게 공부중입니다 여러페이지 한번에 크롤링중
이 질문에서는 URL이 변하지 않는 케이스에 대해 Python의 Selenium을 사용하여 해결하는 방식을 소개하고 있습니다.
네이버 카페 크롤링 문의!
네이버 카페와 같은 사이트의 동적 콘텐츠 크롤링을 다룰 때 Selenium을 사용하는 방식을 설명하고 있으며, 페이지 네비게이션 문제를 해결할 수 있는 좋은 자료가 될 것입니다.
페이지 주소가 바뀌지 않는 경우
URL 변경 없이 페이지를 전환하는 방식에 대한 설명과 더불어 POST 요청을 활용한 다양한 크롤링 기법도 논의되고 있습니다.
이해하기 어려운 부분이 있다면, 위 링크들의 내용을 차근차근 학습해 보시면 많은 도움이 될 것입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.