인프런 커뮤니티 질문&답변

ktsfrank님의 프로필 이미지
ktsfrank

작성한 질문수

쉽게 처음하는 파이썬 고급 크롤링 [Scrapy, Selenium, Headless Chrome]

ip 차단을 피하려면 어떻게 해야 하나요?

해결된 질문

작성

·

2.6K

0

안녕하세요~ 

직접 웹크롤링을 진행하며 필요한 부분만 들어서 크롤링 기초 부트캠프만 듣고 아직 이 강좌의 영상은 시청하지 못했지만, 현재 제가 당면한 문제이기도 하고 웹크롤링에서 주요한 이슈 중 하나인 것도 같아 질문드려 봅니다.

웹크롤링을 시도하다 계속 ip를 차단 당하고 있는데, 어떤 방법으로 이 차단을 피해갈 수 있을까요? ㅜㅜ

온라인 게시글을 크롤링하고 싶은데 글 한 개 스크래핑 후 잠시 멈춤 시간을 둬도 어느 정도 진행되다 계속 차단당하네요 ㅠ

관련 정보를 검색하다 user agent를 변경하는 방법까지는 적용해봤는데 그래도 여전히 2페이지 정도의 게시글을 크롤링 하고 나면 차단 당하고 하네요.. 

웹크롤링 방법을 익혀도 웹크롤링을 막는 장애물들 때문에 웹크롤링에 실패할 때가 있어서 이런 장애물들을 피해갈 수 있는 방법도 중요한 것 같습니다. 강의 목차만 봤을 때는 웹크롤링 방해 또는 장애물에 관한 내용을 다루는 영상이 없는 것 같아 일단 질문드렸는데, 혹시 관련 내용을 다루는 영상이 있다면 무작정 질문드려 죄송하고, 어느 영상인지 알려주심 감사하겠습니다~! 

 

답변 2

1

안녕하세요.

 

사실 웹크롤링이 데이터를 수집하는 목적으로 사용되긴 하는데요. 

너무 많은 요청을 하거나, 또는 데이터 수집을 허용하고 싶지 않은 서비스들은 최대한 크롤링을 차단하려고 하거든요. 이 기법중 하나로 아마 IP 자체를 막는 것 같은데요.

여러가지 막는 기법이 있어서, 각 서비스마다 이를 뚫는 것은 다를 수 있는데요.

이게 좀 사실 해킹이나 유사한 느낌이 들 수밖에 없거든요. 그래서, 이런 부분은 사실 좀 데이터 수집을 위한 크롤링 기술을 익히는 범위를 좀 넘어서긴 해요. 저도 크롤링을 막는 서비스를 강제로 우회해서 뚫는 시도는 사실 하고 있지 않거든요. 

selenium 을 사용하면, 거의 사용자 환경을 그대로 구현하는 것이라서 조금 나을 것은 같은데요. 그렇지 않다면, 너무 이게 해킹과 유사한 느낌이라 저도 조금 애매합니다. 우선은 selenium 으로 한번 시도해보시는 것까지는 한번 해보시면 좋을 것 같고요. 그 후에도 또다시 크롤링이 발견되면, 다시 계속 막을 수 있으므로, 이 정도라면, 공식적으로 해당 서비스측에 요청해보시거나 ,아니시면, 너무 무리하게 하지는 않는 방안을 곰니해보시면 어떠실까 합니다.

 

감사합니다.

0

ktsfrank님의 프로필 이미지
ktsfrank
질문자

빠른 답변 감사합니다~ 

그쵸. 특히 서비스를 담당하시는 분이라면 웹스크래핑이 달갑지 않거나 골칫거리일 수도 있을 것 같긴 합니다.

근데 똑같이 나쁜 의도가 없더라도, 구글 같은 기술력이 뛰어난 기업이나 IT 지식이 많은 사람은 이런 장애물을 피해갈 수 있고,  그렇지 못한 기업이나 사람은 이 장애물에 가로막힐 수도 있는 현실이 좀 씁씁하네요 ㅜ

무튼 일단 selenium으로 한 번 시도해봐야겠네요.

감사합니다!

ktsfrank님의 프로필 이미지
ktsfrank

작성한 질문수

질문하기