작성
·
949
1
강사님의 훌륭한 강의력에 감탄하며 쿠팡 크롤링을 제외한 부분은 다 들었습니다. 감사합니다.
쿠팡 크롤링 파트에 질문이 있습니다.
3월27일 기준으로 위 방법이 막힌것같습니다.
다른 방법을 찾으려고 했지만, 셀레니움 밖에 찾지 못했습니다.
뷰티풀숩을 이용한 해결책은 없나요?
답변 2
1
해결했습니다!
헤더값을 좀 더 넣어주면 됩니다.
기존에 유저 에이전트만 있었다면
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36",
"accept-language": "ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7"
}
"accept-language": "ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7" 이걸 추가해보세요.
사이트 접속 후 개발자도구 - 네트워크탭 - 새로고침 - 유형에서 document인 이름을 클릭 - 요청 헤더를 확인하면 다른 값을 찾을 수 있습니다.
하지만 이런걸 많이 넣어서 봇으로 인식하지 않게 한다고 안막히고 다 되는게 아닙니다.
막히는 이유는 대부분 사람인지 로봇인지 인식 문제가 아니라 정상적이지 않다고 판단될때 막히는 겁니다. 아무리 온갖 헤더값을 넣어서 사람처럼 보이게 하더라도 비정상적인 행동을 지속적으로 한다면 차단될겁니다.
1
와 감사합니다! 저도 같은내용으로 질문하려고 했는데! 이글 보고 해결했습니다!
이것 말고도 봇으로 인식하지 않게, 조금 더 완벽해 지도록......?
headers에 추가할 수 있는게 있을까요?
user agent랑 accept-Language 말구요!