데이터 사이언스

/

데이터 분석

[R] KOSPI/KOSDAQ 전 종목 데이터 수집 및 관리

증권시장에 사장되어있는 전 종목을 수집하고 관리하는 방법에 대해 배웁니다. 자동화를 통해 매일매일 주가를 새로 수집하고 업종별 종목 트렌드도 파악할수 있는 Dashboard까지 shiny를 통해 제작해 봅니다.

(4.9) 수강평 8개

수강생 90명

Thumbnail

중급자를 위해 준비한
[데이터 분석] 강의입니다.

이런 걸
배워요!

  • 코스피/코스닥 전 종목 수집

  • 업종별 종목 데이터 관리

  • 업종별 종목 트렌드 파악

🙆🏻‍♀ 모든 주식 데이터 수집 및 관리/업종별 종목 관리까지 자동화해보기 🙆🏻‍♂

KOSPI/KOSDAQ
전 종목 데이터 수집 및 관리

🗒 강의소개

KOSPI/KOSDAQ에 상장되어 있는 관심있는 종목 또는 모든 종목에 대하여 분석하고 싶으신가요?
분석을 하기 위해서는 데이터를 필요로 합니다.

이 강의는 우리나라 주식시장에 상장되어 있는 모든 종목을 수집 및 관리하는 강의입니다.
강의에서는 시간 관계상 모든 종목에 대하여 최근 3년치 데이터를 수집하지만,
3을 10으로 바꾸시면 쉽게 10년치 데이터를 수집을 할 수 있습니다.

오늘부터 최근 10년치 데이터뿐만이 아니라, 새로 발생하는 데이터 즉 다음 날 발생하는 데이터도 수집합니다.
자동화를 통해 주식시장이 거래가 완료되는 오후 네 시쯤 당일 거래된 데이터를 수집하여 매일 종목을 업데이트합니다.

아래 주소와 같은 Shiny Dash Board를 제작합니다. 

https://leegt.shinyapps.io/shiny/

(일정인원 이상 접속 시 접속이, 안될 수 있습니다)

🌈 종목 코드 받아오기

주식시장에 상장되어 있는 회사(종목)들은 모두 고유의 코드를 가지고 있습니다.
이 코드에 따라 크롤링하는 주소가 달라지게 됩니다.
그래서 각 회사별 고유 코드를 먼저 수집해옵니다.
더불어, 네이버 금융에서 가져올수 있도록 코드에 대한 전처리를 진행합니다.

🌈 전체 주식 종목 수집

각 종목별 네이버 금융 주소를 세팅한 후, 전 종목에 대하여 최근 3년치 데이터를 수집합니다.
3년치 기준으로 약 4시간이 걸렸으므로, 10년치는 12시간 정도면 수집이 완료될 것이라 생각합니다.

종목별 주식 일별 데이터를 수집한 후, 각 종목별 폴더를 생성 후 각각의 폴더 안에 저장합니다.
더불어, 에러가 발생할 경우를 대비해 예외처리까지 함께 진행해 줍니다.

🌈 일별 주식 수집 자동화

이렇게 매일매일 10년치 데이터를 긁어올 수는 없습니다. 매우 비효율적이기 때문이죠.
오늘 주식 거래가 끝나면 오늘의 주식 데이터만 수집 후 기존에 저장되어 있던 데이터에 합치는 방식으로 자동화를 진행합니다.
이제 우리는 매일 오후 네 시에 자동으로 모든 일별 주식 데이터를 업데이트할 수 있습니다.

🌈 업종별 주식 트렌드 파악 및 Shiny를 통한 Dash board제작

중장기적 주식 투자 관점에서 업종/테마별 트렌드를 파악하는 게 중요합니다.
업종별 주식 종목 코드를 수집하고, 이 종목들에 대한 데이터를 불러와 트렌드를 파악하고 시각화를 시켜봅니다.

🌈 전 과정 자동화

매일 주식시장이 끝나면, 일별 데이터를 추가적으로 수집하고 업종별 종목 관리 및 시각화까지 모든 과정을 자동화합니다.

✅ 반드시 확인해주세요!

본 강의는 <R로 하는 웹 크롤링 - 입문편>의 후속 강의입니다.
R언어 기초와 크롤링에 대해 기초적인 지식이 있다는 전제 하에 강의를 진행합니다.

R로 하는 웹 크롤링 - 입문편
R의 개념을 학습하고, 크롤링에 입문할 수 있습니다.

이런 분들께
추천드려요!

학습 대상은
누구일까요?

  • R을 기본적으로 할 줄 아시는 분

  • 주식데이터를 필요로 하시는 분

  • 투자를 하기 위한 기초 데이터를 쌓고 싶으신 분

안녕하세요
코코입니다.

학부에서는 통계학을 전공하고 산업공학(인공지능) 박사를 받고 여전히 공부중인 백수입니다.

 

수상

ㆍ 제6회 빅콘테스트 게임유저이탈 알고리즘 개발 / 엔씨소프트상(2018)

ㆍ 제5회 빅콘테스트 대출 연체자 예측 알고리즘개발 / 한국정보통신진흥협회장상(2017)

ㆍ 2016 날씨 빅데이터 콘테스트/ 기상산업 진흥원장상(2016) 

ㆍ 제4회 빅콘테스트 보험사기 예측 알고리즘 개발 / 본선진출(2016)

ㆍ 제3회 빅콘테스트 야구 경기 예측 알고리즘 개발 / 미래창조과학부 장관상(2015)

* blog : https://bluediary8.tistory.com

주로 연구하는 분야는 데이터 사이언스, 강화학습, 딥러닝 입니다.

크롤링과 텍스트마이닝은 현재는 취미로 하고있습니다 :) 

크롤링을 이용해서 인기있는 커뮤니티 글만 수집해서 보여주는 마롱이라는 앱을 개발하였고

전국의 맛집리스트와 블로그를 수집해서 맛집 추천 앱도 만들었었죠 :) (시원하게 말아먹..)

지금은 인공지능을 연구하는 박사과정생입니다.

 

 

 

 

커리큘럼

전체

23개 ∙ (3시간 55분)

수업 자료

가 제공되는 강의입니다.

  • 오리엔테이션

    01:47

강의 게시일: 
마지막 업데이트일: 

수강평

아직 충분한 평가를 받지 못한 강의입니다.
모두에게 도움이 되는 수강평의 주인공이 되어주세요!