Inflearn brand logo image
Inflearn brand logo image

빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

High Availability가 보장되는 빅데이터 시스템 또는 분산처리 시스템 클러스터 (HDFS, Zookeeper, Spark, Zeppelin) 를 직접 구축해보는 코드랩 위주의 수업입니다.

초급자를 위해 준비한
[데이터 엔지니어링] 강의입니다.

이런 걸 배울 수 있어요

  • Big Data Cluster Setup

  • Distributed File OR Processing System

  • High Availability

  • Hadoop

  • HDFS

  • Apache Spark

  • Apache Zeppelin

  • Apache Zookeeper

  • AWS (EC2, AMI, Security Group)

빅데이터 분산 클러스터를 코드랩을 통해 실제 구축해보는,
빅데이터 클러스터 구축 패키지 
👨🏻‍🎓

안녕하세요 J.PHIL 입니다 🍏

한 학기가 흐르고 좋은 기회를 맞이하여, 이번 시즌에는 빅데이터 분산 클러스터를 직접 여러분이 구축해보는 '빅데이터 클러스터 구축 패키지' 강의를 진행하려고 합니다 📚

여러분들의 성원에 힘입어, 지난 '빅데이터 파이프라인 마스터' 수업의 영감을 바탕으로 '다소 챌린지할 수 있으나 다른 방향으로 유의미한 강의가 있지 않을까?' 고민끝에 한 땀 한 땀 정성들여 해당 강의를 제작하였습니다.

Keyword: Big Data Cluster, Distributed System, High Availability, Hadoop, HDFS, Apache Spark, Zookeeper, Zeppelin, AWS EC2 & AMI

 

우리는 강의를 들어야 할까요 🙇🏻

약 10년이 넘는 시간동안 급진적인 기술 발전으로 다양한 플랫폼 및 서비스가 우후죽순으로 생겨나고, 이를 통해 생활에서 파생되는 무수한 데이터들이 활용 및 분석되면서 저희는 질 높은 삶을 영위하고 있습니다.

아래 figure1. 처럼 국내 거대 대기업들 뿐만이 아니라 세계 거인 기업들은 Big Data Storage 및 Big Data Processing 에 대한 중요성은 공공연하게 강조하며, 많은 엔지니어들에게 이와 비슷한 분석 및 구축 스킬셋을 요구하고 있습니다.

 
001.png

<F1. 전세계 수많은 기업들이 데이터 처리에 집중>

 
002.png

<F2. 수많은 분야에서 빅데이터 클러스터 구축>

하지만 저희가 실제 해당 INDUSTRY에 진입하기전까지는 사전에 BIG DATA CLUSTER 를 직접 구축해보거나 다룰 수 있는 경험을 얻기는 쉽지 않습니다. 그래서 막상 유의미한 가치를 얻을 수 있는 기회가 왔을때, 이에 대한 경험 부족으로 아쉬운 결과를 맞이할 수도 있습니다.

저 또한 연구원 시절 'DATA TOPTIER CONFERENCE' 논문을 쓸때 50대 빅데이터 클러스트를 직접 구축을 했어야 했었고, 멤버들에게 솔선수범해야하는 부담감과 과금에 대한 큰 스트레스를 견디며 보름동안 밤낮을 지새우며 오로지 클러스터를 구축에 전념했었습니다.

물론 그 때의 소중한 경험으로 많이 배우고 앞으로 나아가는데 좋은 자양분이 되었지만, 저는 여러분이 이렇게 시간을 다소 비효율적으로 쓰길 원치 않습니다. , 여러분의 값진 약 200시간을 클러스터를 구축하는데만 쓰지 않고, 효율적으로 클러스터 위에 실험이나 고객 데이터 분석을 하는데 전념하길 기대하며 해당 강의를 제작하였습니다 📝

무엇보다도 여러분이 현재 강의를 듣고 클러스터 구축 경험을 쌓으신 후, 저처럼 직접 현업이나 대학원에서 빅데이터 클러스터를 구축시 큰 도움이 되길 바라며, 해당 강의는 무제한 으로 풀었으니 참고해주세요 💓

 

저희는 무엇을 배우게 되나요 📚

📝

Data Top-Tier Conference 논문을 땀흘려 쓴 경험

👨🏻‍💼

현업에서 얻은 값진 빅데이터 시스템 구축 및 분석 경험

🧑🏻‍🏫

오랫동안 대학교에서 좋은 제자들을 양성한 경험

이처럼 값진 경험 바탕으로, 해당 분야에서 여러분이 ⚔️ 강력한 무기를 만들 수 있도록

1. 고가용성이 보장되는 분산파일시스템 HDFS 위에 (아래 Daemon 예시 참고)

2. 빅데이터 시스템계 Masterpiece, Apache Spark 및 빅데이터 전용 노트북 Zeppelin

클러스터 패키지를 이론 및 탄탄한 코드랩을 통해 직접 구축해볼 예정입니다.

 

image.png

위에 고가용성 파일시스템 데몬 구성들이 다소 어렵게 보이시나요? 원래 항상 처음 보는 아키텍처 및 시스템 구성도들은 부담스럽기 마련입니다.

하지만

약 6년동안 훌륭한 제자들의 소중한 피드백을 회고하여, 지난 인프런 2개 강의를 런칭한 경험으로 바탕으로, 수강생분들의 눈높이에 맞춰 차근차근 하나씩 용이하게 최대한 쉽고 질 좋은 컨텐츠로 구성하였으니 부담없이 follow up 해주셔도 괜찮습니다.

special thanks to my lovely students 👨🏻‍🎓

 

커리큘럼에 대해서 알려주세요 🧑🏻‍🏫

바로 CODELAB 부터 시작하지 않고, 고가용성 클러스터를 구축할 때 필요한 이론 부터 학습합니다. 그리고 AWS 환경이나 리눅스 환경에 익숙하지 않는 수강생분들을 위해서 가이드 영상 및 백그라운드 지식을 공부하고 본격적으로 심층적인 코드랩을 진행할 예정입니다 😎

curri-1.jpg

 

빅데이터 OR 분산처리에 관심있는 누구나 수강 가능합니다 🧑🏻‍🎓

 

 

실습 환경은 어떻게 되나요? 💻

아래와 같이 부담없는 환경을 준비하셔도 충분히 수업을 따라오실 수 있습니다.

  • OS: Ubuntu 20.04 LTS

  • Editor: Vim (up to your preference)

  • Machine 사양

    • AWS EC2 / c5.large (2 Core 4GB) 4대 또는 5대

자세한 사항들은 Course Curriculum 시청 부탁드립니다 😊

 

J.PHIL 소개 👨‍👨‍👧‍👦

image.png

 

 

이런 분들께
추천드려요!

학습 대상은
누구일까요?

  • 빅데이터 처리 시스템 클러스터 구축을 직접 경험하고 싶은 수강생

  • 데이터 분석 및 시스템에 관심있고 직무를 희망하는 학생

  • 고가용성 클러스터 실습을 직접 경험하고 싶은 개발자

  • 빅데이터 분석 및 구축 분야에서 강점을 만들고 싶은 취준생

선수 지식,
필요할까요?

  • 파이썬 기초 코딩

  • 리눅스 명령어 기초 지식

  • 데이터베이스 기초 지식

안녕하세요
J.PHIL입니다.

435

수강생

37

수강평

50

답변

4.9

강의 평점

2

강의

안녕하세요 J.PHIL 입니다 🧑🏻‍🎓

첫번째 강의로 [ 빅데이터 시스템 구축 및 분석에 관심있는 입문자 ] 를 위해
"Mastering Big Data Processing: Tools and Techniques for Success" 강의를 오픈 하였습니다.

'수업 및 프로필' 자세한 사항들은 수업 상세 페이지에 잘 작성했으니 참고 부탁드립니다  🙏🏻

커리큘럼

전체

36개 ∙ (4시간 51분)

해당 강의에서 제공:

수업자료
강의 게시일: 
마지막 업데이트일: 

수강평

전체

18개

4.7

18개의 수강평

  • Jason.king님의 프로필 이미지
    Jason.king

    수강평 2

    평균 평점 5.0

    5

    36% 수강 후 작성

    이전에 파이프라인 강의를 듣고 본 강의를 듣고 있는데 머리속에 잘 들어와서 너무 좋아요~ 컴팩트하고 실무에 쓰일 강의 감사해요~ 이 강의도 금방 들어버릴 것 같은데 다른 강의도 있을지 기대됩니다.

    • 2일 걸렸네요. lab 형식이라 좀 빠르게 진행되고 , namenode 기동이 안되어서 삽질하느라 어려웠는데 (아마 어딘가 실수하여 그런듯) 나중에 보니 trouble shoot guide 부분에 기동절차 스크립트 및 로그 보는 부분 정리해 두셨네요. 이것도 봤다면 좀더 빨리 실수를 복구했을텐데 ㅜㅜ 혹시 진행하시는 분들은 모두 따라 치는 것보다는 한번 정독하고 따라하는 것도 좋을 것 같아요~ 강사님. 좋은 강의 매번 감사해요~

    • J.PHIL
      지식공유자

      안녕하세요 Jason.King 님, 제 이번 강의를 열심히 수강해주셔서 감사합니다 :) 때때로 버그나 trouble shooting을 직접 겪어보면서 고민해보고 복기해보는 것이 많이 도움이 될 때가 있을테니 오히려 이번 경험이 추후 큰 도움될거라 사료됩니다. 굵직한 오프소스를 직접 구축해보면 클러스터를 구축해보셨으니 다른 오프소스가 나와도 이제 빠른 시간에 잘 구축하실 수 있을겁니다. 앞으로도 화이팅입니다

  • 귤껍데기님의 프로필 이미지
    귤껍데기

    수강평 3

    평균 평점 4.3

    5

    44% 수강 후 작성

    내용이 알차고 처음 시작하기에 좋은 강의라고 생각되네요. 이런 강의를 준비해 주셔서 감사합니다.

    • 권영미님의 프로필 이미지
      권영미

      수강평 3

      평균 평점 5.0

      5

      100% 수강 후 작성

      감사합니다!

      • J.PHIL
        지식공유자

        안녕하세요 권영미님, 소중한 수강평 감사드립니다! 화이팅입니다

    • one831님의 프로필 이미지
      one831

      수강평 1

      평균 평점 5.0

      5

      19% 수강 후 작성

      곧 졸업을 앞둔, 데이터 엔지니어를 지망하는 컴공과 학생입니다. 취업 관련 포트폴리오를 만들면서, 빅데이터를 처리하기 위한 파이프라인 및 아키텍쳐를 어떻게 구성하고, 어떤 식으로 aws 환경을 설정하여 최대한 낮은 비용으로 효율적으로 이용할 수 있을지 고민이 많았었는데, 본 강의를 통해 엄청난 인사이트와 노하우들을 얻어갑니다. 특히, 빅데이터를 다루는 다양한 프레임워크들에 대한 많은 지식도 얻게 되어 앞으로 어느쪽으로 파고들수 있을지 영감을 얻은 것 같아 기쁩니다. 가뭄 끝에 단비를 만났습니다. 저와 같이 이쪽 분야를 지망하시는 학생분들께 수강 추천드립니다.

      • J.PHIL
        지식공유자

        안녕하세요 one831님, 소중한 수강평 감사드리며, 앞으로도 좋은 결과 있기를 바랍니다 화이팅입니다

    • Yeonwoo Jung님의 프로필 이미지
      Yeonwoo Jung

      수강평 4

      평균 평점 5.0

      5

      31% 수강 후 작성

      이론 부터 코드랩까지 초기 입무자에게 정말 추천하는 강의 입니다!! 빅데이터 클러스터 구축 강의로 필수로 수강하길 추천합니다!!

      • J.PHIL
        지식공유자

        안녕하세요 Yeonwoo Jung님, 소중한 수강평 감사합니다. 기회될 때 하루이틀 투자하셔서 AWS 로 실습을 따라해보셔서 좋은 성과 있기를 바랍니다. 새해 복 많이 받으세요 :)

    비슷한 강의

    같은 분야의 다른 강의를 만나보세요!

    월 ₩19,800

    5개월 할부 시

    ₩99,000