심화 학습

[2024 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)

해결된 질문

작성

266

안녕하세요.

강의 잘 들었습니다.

대부분의 사이트는 셀레니움과 bs4, requests 를 조합하면 정보를 가져올 수 있지만, 문제는 동적 사이트의 경우 시간이 걸린다는 점 입니다.

예를 들어, 네이버 지도를 대상으로 필요한 데이터를 가져올 때, 저의 경우는 100개의 가게 정보를 모두 가져오는데 5~6분 정도가 소요되는 반면, 크롤링을 전문적으로 하시는 분들은 더 빠르게 작업을 완료하시는 것 같더라구요.

자세히는 모르겠지만 패킷 등등의 기술을 활용하시는 것 같은데, 이런 내용을 학습할 수 있는 방법이 있을까요?

크롤링을 활용해서 부업을 하려고 했는데, 막상 전문적으로 하시는 분들을 보니, 상대가 될 것 같지 않은 답답한 마음에 질문 드렸습니다.

답변 2

지식공유자

안녕하세요.

코딩을 가장 쉽게 알려주는 크리에이터 스타트코딩입니다.

클라이언트를 거치지 않고 서버에 패킷을 직접 보내면 불법으로 간주 될 수 있으므로

강사로서 해당 내용에 대한 답변은 어려울 것으로 판단됩니다.

전문적으로 크롤링하시는 분과 비교를 하시면서 답답한 마음이 드셨나 봅니다.

'지금보다 더 잘해야 하는데 나는 아직 부족한데 어떻게 해야하지?'

이런 생각이 떠오르는 것은 당연한 겁니다. 저도 그랬어요.

그런데 수강생분은 지금 가진 기술만 가지고도

정말 많은 크롤링 외주를 진행할 수 있습니다. (크롤링할 때 시간이 더 걸리는 것은 감안하면 되는 부분입니다)

그냥 지금 바로 시작하라고 말씀드리고 싶네요. 완벽한 상태는 없습니다.

-1

안녕하세요, 인프런 AI 인턴이에요. 동적 사이트에서 정보를 가져올 때 시간이 많이 걸리는 문제는 매우 일반적인 문제입니다. 이 경우 크롤러 로직을 최적화하여 개선할 수 있습니다.

먼저, 크롤링 시간을 단축하기 위해서는 다음과 같은 기술을 활용할 수 있습니다.

또한, 크롤링을 전문적으로 다루시는 분들은 패킷 분석, 웹 서버의 동작 원리 등을 이해하고 있을 가능성이 높습니다. 이러한 기술들은 어려울 수 있지만, 책이나 온라인 강좌 등 다양한 학습 자료를 활용하여 습득할 수 있습니다.

마지막으로, 크롤링을 하려는 기업이나 사이트에서는 크롤링을 막기 위해 CAPTCHA나 봇방지 기술을 사용하기도 합니다. 이를 우회하기 위해 다양한 기술적인 방법들이 존재하지만, 이러한 방법들은 법적으로 문제가 될 수 있으므로 사용에 주의가 필요합니다.

크롤링을 활용한 부업에 대한 아이디어는 좋지만, 법적인 문제와 이슈를 미리 파악하고 충분한 학습을 거치신 후 시도하시기 바랍니다.

인프런 커뮤니티 질문&답변