묻고 답해요
141만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
주피터 노트북 이미지 삽입
주피터 노트북에서 이미지를 삽입하려고 아래와 같이 마크업다운에 코드를 작성하고 실행시켜 봤는데 계속 이미지 아이콘만 뜹니다ㅠㅜ 업로드 해주신 주피터 파일 수업자료에 이미지가 있는 경우도 저는 아이콘만 표시 되는데 왜 이러는 걸까요...? 답변 부탁드립니다. 감사합니다 :)
-
미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
이미지 크롤링 강의
안녕하세요! 강의 잘 듣고 있습니다! 54강을 듣고 있는데요. 아직까지는 텍스트위주의 크롤링을 배우고 있는데 혹시 이미지 크롤링도 본 강좌에 있나요? 간단하게 있다/없다로만 말씀주시면 될것 같습니다 :)
-
미해결[2024 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
이미지 탭 클릭방법
안녕하세요! 네이버 이미지 크롤링 과제 진행하면서 생긴 의문점입니다. 저같은 경우에는 강의와는 다르게 네이버 메인페이지를 열고, 검색어를 입력한 다음, 이미지탭을 클릭하는 것으로 구현하고자 하였는데요, 여기서 '이미지탭' 클릭을 css 선택자로 어떻게 표현하면 좋을지 잘 모르겠어서 질문 드립니다!!! 아래 태그 두개는 각각 이미지, 뉴스탭에 해당하는 a태그인데요, 두 태그에는 아이디나 클래스 등이 나와있지 않아 어떻게 이미지태그만을 구분하여 선택하면 좋을지 감이 잘 안잡힙니다...!! 어떻게하면 좋을까요? <a role="tab" href="?where=image&sm=tab_jum&query=%EC%95%84%EC%9D%B4%EC%9C%A0" onclick="return goOtherCR(this,'a=tab*i.jmp&r=2&i=&u='+urlencode(this.href));" class="tab" aria-selected="false">이미지</a> <a role="tab" href="?where=news&sm=tab_jum&query=%EC%95%84%EC%9D%B4%EC%9C%A0" onclick="return goOtherCR(this,'a=tab*n.jmp&r=3&i=&u='+urlencode(this.href));" class="tab" aria-selected="false">뉴스</a> 찾아본 결과, 개발자 모드 내에서 이미지 탭에 해당하는 태그를 우클릭하여 copy > copy selector 기능을 활용하여 #lnb > div.lnb_group > div > ul > li:nth-child(2) > a 를 복붙하면 어찌어찌 과제는 수행 완료 할 수 있는데요!!! copy selector기능을 사용하지 않고 배운대로 해보고자 한다면...? 강사님이라면 어떻게 선택하실지 궁금하여 이렇게 질문작성하게 되었습니다. 감사합니다.
-
미해결[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
CSS 선택자 copy + 네이버 미국증시
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 안녕하세요, 강의 정말 잘 들었습니다. 네이버 증권에서 다른 수치를 불러오는 중 막혔습니다. 현재가, 종목명, 종목코드 같은 경우에는 알려주신 것을 응용하면 돼서 전혀 문제가 없었습니다. 하지만 '52주 최고' 수치를 불러들이지 못하고 있습니다. 그 수치만을 위한 class나 id... 별명? 그런 것이 없습니다. https://finance.naver.com/item/sise.naver?code=005930 이 부분입니다. <span class = "tah p11">이 있지만, 다른 수치에도 같은 tah p11 class가 있고, 그 위의 <td class = "num">도 똑같습니다. 다른 질답에서 보면 copy를 사용하라고 하셨는데 그러면 다른 엉뚱한 수치가 떠요... https://m.stock.naver.com/index.html#/worldstock/stock/V/total 반면 미국증시의 경우에는 더 처참한데 현재가도 이름도 프린트해보면 NONE이라고 뜹니다. 왜 이러는걸까요... 야후 파이낸스로도 셀레늄이 잘 안돼서 네이버로 하고 싶었는데 야후 파이낸스로 해보는 것이 나을까요? tickers = ['APPL.O', 'GOOGL.O'] for ticker in tickers: url = f"https://m.stock.naver.com/index.html#/worldstock/stock/{ticker}/total" response = requests.get(url) html = response.text soup = BeautifulSoup(html, 'html.parser') price = soup.select_one("#content > div.GraphMain_mainGraph__3npcJ.UNCHANGED > div.GraphMain_frameGraph__19k0w > div.GraphMain_stockInfo__2-Uf6 > strong") name = soup.select_one("#content > div.GraphMain_mainGraph__3npcJ.UNCHANGED > div.GraphMain_frameGraph__19k0w > div.GraphMain_stockInfo__2-Uf6 > span.GraphMain_name__3XazJ") print(name, price) 도와주세요!!
-
미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
크롤링을 연습을 하는데 문제가 생겼습니다.
안녕하세요?? 수업을 재미있게 듣고 있습니다. 다름이 아니라 제가 G마켓 - G마켓 베스트 (gmarket.co.kr) 상품을 크롤링을 하고 싶어서 해 보았는데 앞에 5개의 데이터가 href="" 이 없는 데이터가 붙고 있습니다. 이걸 제거할 수 있는 방법은 없나요?? 코딩한 내용을 보내 드려 보겠습니다. ============================================== import requests from bs4 import BeautifulSoup res = requests.get('http://corners.gmarket.co.kr/Bestsellers') soup = BeautifulSoup(res.content, 'html.parser') data = soup.select('a.itemname') for item in data: print (item) 출력한 결과도 같이 보내 드리겠습니다. ===================================================================== <a class="itemname" href="" id="topPlusItemName0"></a> <a class="itemname" href="" id="topPlusItemName1"></a> <a class="itemname" href="" id="topPlusItemName2"></a> <a class="itemname" href="" id="topPlusItemName3"></a> <a class="itemname" href="" id="topPlusItemName4"></a> <a class="itemname" href="http://item.gmarket.co.kr/Item?goodscode=2304781568&ver=637766761479092506" onclick="pdsClickLog('200000680', 'Item', {'ASN': 1, 'goodsCode': '2304781568'});">[탑텐키즈](신세계경기점)아동) 플리스 셋업 MKB4IP3001</a> <a class="itemname" href="http://item.gmarket.co.kr/Item?goodscode=1890042210&ver=637766761479092506" onclick="pdsClickLog('200000680', 'Item', {'ASN': 2, 'goodsCode': '1890042210'});">[제주삼다수][SSG Fresh][무료배송] 제주 삼다수 2L 24병</a> <a class="itemname" href="http://item.gmarket.co.kr/Item?goodscode=2252407790&ver=637766761479092506" onclick="pdsClickLog('200000680', 'Item', {'ASN': 3, 'goodsCode': '2252407790'});">제주 달콤 조생 타이벡 감귤 9kg 로얄과(S~M)</a> <a class="itemname" href="http://item.gmarket.co.kr/Item?goodscode=2098259811&ver=637766761479092506" onclick="pdsClickLog('200000680', 'Item', {'ASN': 4, 'goodsCode': '2098259811'});">[SSG Fresh]맛있게 매운맛 하남쭈꾸미 500g X 3팩</a> <a class="itemname" href="http://item.gmarket.co.kr/Item?goodscode=2320594813&ver=637766761479092506" onclick="pdsClickLog('200000680', 'Item', {'ASN': 5, 'goodsCode': '2320594813'});">경북 부사사과 가정용 5kg 중대과(14-20과내) 12brix</a> <a class="itemname" href="http://item.gmarket.co.kr/Item?goodscode=2166658347&ver=637766761479092506" onclick="pdsClickLog('200000680', 'Item', {'ASN': 6, 'goodsCode': '2166658347'});">(초등교과 어휘왕) 가로세로 낱말퍼즐 : 초급+중급(전2권) / 2021년 7월 최신간 (출시기념 특가)</a> <a class="itemname" href="http://item.gmarket.co.kr/Item?goodscode=1899284341&ver=637766761479092506" onclick="pdsClickLog('200000680', 'Item', {'ASN': 7, 'goodsCode': '1899284341'});">[잘풀리는집]잘풀리는집 깨끗한3겹 쿠션 소프트 27m 30롤 2팩</a> <a class="itemname" href="http://item.gmarket.co.kr/Item?goodscode=2301439287&ver=637766761479092506" onclick="pdsClickLog('200000680', 'Item', {'ASN': 8, 'goodsCode': '2301439287'});">오롯담나주곰탕700g 12팩</a> <a class="itemname" href="http://item.gmarket.co.kr/Item?goodscode=1894353565&ver=637766761479092506" onclick="pdsClickLog('200000680', 'Item', {'ASN': 9, 'goodsCode': '1894353565'});">[폰타나]즉석수프 60g x4각(12개)</a> (이하 생략.....)
-
미해결[2024 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
안녕하세요. G마켓에서 해당태그를 찾는데 너무 어렵습니다.
교육받은데로 스마트스토어에서는 잘 찾는데 G마켓에서는 구조가 달라서 찾기가 어렵습니다. 제거 어떤걸 빼먹었는지 몰라서 계속 해봐도 안되서 결국 여기에 질문을 올리게 되었습니다. 제가 찾는거는 제품리스트에서 <구매 1>이 찍힌것만 필터링해서 리스트로 뽑아내려고 하고 있습니다. 해당 주소는 아래와 같습니다. https://browse.gmarket.co.kr/search?keyword=%ec%95%8c%ea%b5%ac%ec%8a%ac&f=is:cb 구조는 아래와 같습니다. <div class="box__information-score"> <ul class="list__score"> <li class="list-item list-item__pay-count"><span class="text">구매 <!-- --> 1</span><span class="for-a11y">건</span></li> </ul> </div> item_containers = soup.select(".box__item-container") for item_container in item_containers : # item_score = item_container.select('.list-item__pay-count') # print(item_score) if item_container == '.list-item__pay-count' : print('test') 어려운점은 list-item__pay-count까지 확인이 되는데 if in으로 검색해서 해당 링크만 추출하려는데 나오질 않더라구요. 제발 가르쳐주세요!!
-
미해결
(크롤링, 엑셀연동, 데이터분석, 업무자동화용) 파이썬 공부방향 질문드립니다. [어떤 라이브러리를 추가로 공부하면 될지]
안녕하세요. 귀중한 조언 감사드립니다. 파이썬 이제 막 기초를 끝낸 파이썬 초보입니다. 책과 강의로 파이썬 기초서적을 3회독 점도 하였고, 별도로, pandas, numpy, matplotlib, 셀레니움 라이브러리를 공부했습니다. (질문) 저는 전문 프로그래머나 개발자는 아니고, 별도의 사업과 투자를 하는 사람입니다. 제 사업이나 주식, 부동산 자료분석에 활용하고자 파이썬이라는 도구를 활용하려는 것입니다. ● 주로, 방대한 인터넷 세계에서 제가 원하는 자료만을 크롤링해 올수 있는 방법으로 활용 ● 그 크롤링한 자료들을 a. 제가 지정한 폴더에 한번에 다운로드 받거나 (예컨대, 이미지 파일들을 폴더에 대량으로 다운받거나) b. 제가 원하는 크롤링한 내용들(글자 내용 등)을 엑셀에다가 일목요연하게 정리되게 출력해주는 식으로 활용도 해 나가고.. (예컨대, 네이버 연관검색어를 쫙 모아서 엑셀에다가 정리해준다던지) ● 그렇게 크롤링되어 엑셀로 재정리된 그 자료를 데이터 분석도 하고, 그래프도 만들고, 통계도 만들고 아울러 ● 업무 자동화도 만들어나가는 식으로 파이썬을 활용해나갈 것을 염두에 두고 있습니다. =================================== 결국, 크롤링, 엑셀연동, 데이터분석, 업무자동화용으로 파이썬을 활용하고자 합니다. ■ 파이썬 기초에 + 판다스, 셀레니움, 넘파이, matplotlib를 공부한 상태인데 크롤링, 엑셀연동, 데이터분석, 업무자동화용으로 파이썬을 활용하려면 여기에, 어떤어떤 라이브러리(모듈)을 추가로 공부해나가야 하는지, 여기에 자주 사용하는 라이브러리(모듈)은 무엇무엇이 있는지 질문드립니다. 귀중한 답변 정말 감사드립니다. 오늘도 좋은 하루 되세요 ^^
-
미해결[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
질문드립니다^^
아래 화면처럼 했는대 데이터를 가져오는 건 1,10,20,30 여기서 어떠한 부분이 잘못된것일까요? import requests from bs4 import BeautifulSoup import pyautogui keyword = pyautogui.prompt('검색어를 입력하세요') lastpage = pyautogui.prompt('마지막 페이지 번호') pageNum=1 for i in range(1, int(lastpage) * 10, 10) : print(f"{pageNum}페이지 ==============================") response = requests.get(f"https://search.naver.com/search.naver?sm=tab_hty.top&where=news&query={keyword}&start={lastpage}") html = response.text soup = BeautifulSoup(html,'html.parser') links = soup.select('.news_tit') for link in links : title = link.text url=link.attrs['href'] print(title,url) pageNum = pageNum + 1
-
미해결청와대 청원 데이터 시각화
크롤링 질문입니다
국민청원 안에 각각의 페이지에 들어가 내용, 제목, 청원수 등을 가져오고 싶은데 이건 어떻게 코드를 짜야하나요
-
미해결단 두 장의 문서로 데이터 분석과 시각화 뽀개기
크롤링으로 csv파일 가져오기
선생님이 인강에서 하시는 6월 30일자 엑셀 csv 파일받았는데요! 그거로 실습하려면 url 자리에다가 csv 파일 불러오기 해야하는건가요? 그렇게 하려면 어떤 코드를 써야하나요?
-
미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
크롤링 공공데이터 opn api 관련 질문입니다!
안녕하세요~ 파이썬입문과 크롤링기초 부트캠프 강좌의 크롤링을 위한 지식: 정부 제공 공공데이터 Open API 사용법 에서 09:07~ 부분처럼 Body 결과가 뜨지 않아 질문드려요. 여기까지가 공공데이터 홈페이지의 내용이고, 노란색으로 표시한 부분을 아래와 같이 postman에 넣었습니다. NORMAL_CODE 로 뜨긴 하지만 선생님께서 강의 예시로 보여주신 것처럼 sidoName , searchCondition 등의 항목을 볼 수 있는 데이터가 아니라 그런건지, 그렇다면 다른 데이터를 활용해보는 게 나을지? 아니면 URL을 잘못 만든 것인지 피드백 부탁드려요~ 감사합니다.
-
미해결Node.js로 웹 크롤링하기
안녕하세요~ 크롤링 연습과정에서 질문드립니다~
특정 사이트를 크롤링하는 중 휴대폰번호 인증번호를 받는 부분이 있는데요해당 폰으로 전송되는 인증번호를 입력하는 액션을 해야 다음 페이지로 넘어가는 구조인데 이 부분을 어떻게 순차적으로 처리해야될지 조언을 받을수 있을까요 :)
-
미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
크롤링한 url 다시 크롤링
안녕하세요 배운 내용을 토대로 응용을 해보고 있는데요, 네이버 뉴스의 내용을 크롤링 하고 싶어서 크롤링한 걸 재크롤링 하는 방법을 써봤습니다. 그런데 href 추출까지는 잘 되는데요, (print로 확인 해보면 잘 크롤링 됨) 그걸 다시 파싱하는 코드를 넣으니까 에러가 납니다. 여기서 뭘 어떻게 건드려야 할지 모르겠어요ㅠ import requests from bs4 import BeautifulSoup keywords = ["인공지능"] for keyword in keywords: url = "https://search.naver.com/search.naver?where=news&ie=utf8&sm=nws_hty&query={0}".format(keyword) #기사 링크 추출 search_url = requests.get(url) soup = BeautifulSoup(search_url.text, "lxml") urls = soup.select("a.info:nth-of-type(2)") for burl in urls: # print(burl["href"]) #본문 url 다시 파싱 res_info = requests.get(burl["href"]) soup_info = BeautifulSoup(res_info.content, "lxml") title = soup_info.select("h3#articleTitle") print(title)
-
미해결
크롤링을 하다가 sleep을 잘못 쳐서 사이트가 막혔어요ㅠㅠㅠㅠ
어떻게 해야하나요,,, ip가 다른 곳에 서 하면 가능할까요?ㅜㅜㅜㅜㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ
-
미해결따라하며 익히는 크롤링 마스터 with데이터공방
유튜브 크롤링 방법
강의와 관련있는 질문을 남겨주세요.• 강의와 관련이 없는 질문은 지식공유자가 답변하지 않을 수 있습니다. (사적 상담, 컨설팅, 과제 풀이 등)• 질문을 남기기 전, 비슷한 내용을 질문한 수강생이 있는지 먼저 검색을 해주세요. (중복 질문을 자제해주세요.)• 서비스 운영 관련 질문은 인프런 우측 하단 ‘문의하기’를 이용해주세요. (영상 재생 문제, 사이트 버그, 강의 환불 등) 질문 전달에도 요령이 필요합니다.• 지식공유자가 질문을 좀 더 쉽게 확인할 수 있게 도와주세요.• 강의실 페이지(/lecture) 에서 '질문하기'를 이용해주시면 질문과 연관된 수업 영상 제목이 함께 등록됩니다.• 강의 대시보드에서 질문을 남길 경우, 관련 섹션 및 수업 제목을 기재해주세요. • 수업 특정 구간에 대한 질문은 꼭 영상 타임코드를 남겨주세요! 구체적인 질문일수록 명확한 답을 받을 수 있어요.• 질문 제목은 핵심 키워드를 포함해 간결하게 적어주세요.• 질문 내용은 자세하게 적어주시되, 지식공유자가 답변할 수 있도록 구체적으로 남겨주세요.• 정확한 질문 내용과 함께 코드를 적어주시거나, 캡쳐 이미지를 첨부하면 더욱 좋습니다. 기본적인 예의를 지켜주세요.• 정중한 의견 및 문의 제시, 감사 인사 등의 커뮤니케이션은 더 나은 강의를 위한 기틀이 됩니다. • 질문이 있을 때에는 강의를 만든 지식공유자에 대한 기본적인 예의를 꼭 지켜주세요. • 반말, 욕설, 과격한 표현 등 지식공유자를 불쾌하게 할 수 있는 내용은 스팸 처리 등 제재를 가할 수 있습니다. 안녕하세요 데이터공방님, 친절하고 유익한 강의 잘 듣고 있습니다. 감사합니다. 인스타그램 크롤링이 도움이 많이 되었는데, 혹시 유튜브 크롤링 강의는 오픈될 예정에 있는지 궁금합니다. 답변주시면 감사하겠습니다.