해결된 질문
작성
·
696
4
lists의 사이즈가 0입니다.
제가 혹시 간과한 부분이 있는지 여쭙습니다.
참고로 status code는 200, bs 변수에도 정상적으로 값이 할당되는듯합니다.
감사합니다.
답변 4
9
작성하신 코드는 아무 문제 없습니다. 다만 2020년 1월 17일 부로 네이버 실시간 검색어가 기존의 임베딩 방식에서 ajax 통신 방식으로 변경된거 같습니다. 실제 개발자도구로 확인했을때 기존과 같이 li 태그에 ah_item 클래스명으로 표기는 되나 이전에는 해당 데이터가 html 에 직접 뿌려주는 방식이였다면 현재는 해당 실시간 순위 데이터를 ajax 통신으로 가져온 뒤에 자바스크립트로 li.ah_item 클래스 형태로 만들어주고 있습니다.
따라서 기존의 코드로는 해당 데이터를 추출 할 수 없게 되었습니다. 원래 크롤링이라는게 페이지 코드가 바뀌면 크롤링 코드도 변경되야 하는 문제라서 강좌는 BeautifulSoup 을 어떻게 쓰고 어떻게 분석을 하는지에 초점을 맞춘거라 그대로 두고 ajax 형태로 가져오는 실시간 검색 결과를 확인은 해야 하기에 수정된 코드를 첨부 합니다.
import requests
from bs4 import BeautifulSoup
# 아래 주소가 메인페이지 내부에서 호출되는 실시간 검색어 데이터를 넘겨주는 주소
# requests.get("주소").json() 을 하면 데이터를 json 형태로 받아올 수 있습니다.
# 아래 주소를 직접 브라우저에서 접속해보시기 바랍니다.
json = requests.get('https://www.naver.com/srchrank?frm=main').json()
# json 데이터에서 "data" 항목의 값을 추출
ranks = json.get("data")
# 해당 값은 리스트 형태로 제공되기에 리스트만큼 반복
for r in ranks:
# 각 데이터는 rank, keyword, keyword_synomyms
rank = r.get("rank")
keyword = r.get("keyword")
print(rank, keyword)
3
저도 남박사님 강의 듣고 네이버 실시간 검색어 크롤링 중 잘 되지 않아 문의를 남기려던 찰나에 윗분이 남긴 문의글 보았습니다. 궁금한 것은 크롬 개발자 도구를 확인하고 네이버와 같이 통신 방식으로 정보를 가져오는 것인지 판단하는 방법과 만약 통신 방식이라하면 답변 달아주신 것과 같은 주소('https://www.naver.com/srchrank?frm=main')를 어떻게 찾아낼 수 있는지 입니다.
답변 부탁드립니다.
감사합니다!!
0
0