빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

High Availability가 보장되는 빅데이터 시스템 또는 분산처리 시스템 클러스터 (HDFS, Zookeeper, Spark, Zeppelin) 를 직접 구축해보는 코드랩 위주의 수업입니다.

(4.6) 수강평 14개

수강생 82명

J.PHIL

빅데이터 Apache Spark Hadoop 데이터 엔지니어링 cluster

초급자를 위해 준비한
[데이터 엔지니어링] 강의입니다.

이런 걸
배워요!

Big Data Cluster Setup
Distributed File OR Processing System
High Availability
Hadoop
HDFS
Apache Spark
Apache Zeppelin
Apache Zookeeper
AWS (EC2, AMI, Security Group)

안녕하세요 J.PHIL 입니다 🍏

한 학기가 흐르고 좋은 기회를 맞이하여, 이번 시즌에는 빅데이터 분산 클러스터를 직접 여러분이 구축해보는 '빅데이터 클러스터 구축 패키지' 강의를 진행하려고 합니다 📚

여러분들의 성원에 힘입어, 지난 '빅데이터 파이프라인 마스터' 수업의 영감을 바탕으로 '다소 챌린지할 수 있으나 다른 방향으로 유의미한 강의가 있지 않을까?' 고민끝에 한 땀 한 땀 정성들여 해당 강의를 제작하였습니다.

Keyword: Big Data Cluster, Distributed System, High Availability, Hadoop, HDFS, Apache Spark, Zookeeper, Zeppelin, AWS EC2 & AMI

우리는 왜 강의를 들어야 할까요 🙇🏻

약 10년이 넘는 시간동안 급진적인 기술 발전으로 다양한 플랫폼 및 서비스가 우후죽순으로 생겨나고, 이를 통해 생활에서 파생되는 무수한 데이터들이 활용 및 분석되면서 저희는 질 높은 삶을 영위하고 있습니다.

아래 figure1. 처럼 국내 거대 대기업들 뿐만이 아니라 세계 거인 기업들은 Big Data Storage 및 Big Data Processing 에 대한 중요성은 공공연하게 강조하며, 많은 엔지니어들에게 이와 비슷한 분석 및 구축 스킬셋을 요구하고 있습니다.

하지만 저희가 실제 해당 INDUSTRY에 진입하기전까지는 사전에 BIG DATA CLUSTER 를 직접 구축해보거나 다룰 수 있는 경험을 얻기는 쉽지 않습니다. 그래서 막상 유의미한 가치를 얻을 수 있는 기회가 왔을때, 이에 대한 경험 부족으로 아쉬운 결과를 맞이할 수도 있습니다.

저 또한 연구원 시절 'DATA TOPTIER CONFERENCE' 논문을 쓸때 50대 빅데이터 클러스트를 직접 구축을 했어야 했었고, 멤버들에게 솔선수범해야하는 부담감과 과금에 대한 큰 스트레스를 견디며 보름동안 밤낮을 지새우며 오로지 클러스터를 구축에 전념했었습니다.

물론 그 때의 소중한 경험으로 많이 배우고 앞으로 나아가는데 좋은 자양분이 되었지만, 저는 여러분이 이렇게 시간을 다소 비효율적으로 쓰길 원치 않습니다. 즉, 여러분의 값진 약 200시간을 클러스터를 구축하는데만 쓰지 않고, 효율적으로 클러스터 위에 실험이나 고객 데이터 분석을 하는데 전념하길 기대하며 해당 강의를 제작하였습니다 📝

무엇보다도 여러분이 현재 강의를 듣고 클러스터 구축 경험을 쌓으신 후, 저처럼 직접 현업이나 대학원에서 빅데이터 클러스터를 구축시 큰 도움이 되길 바라며, 해당 강의는 무제한 으로 풀었으니 참고해주세요 💓

클러스터 패키지를 이론 및 탄탄한 코드랩을 통해 직접 구축해볼 예정입니다.

위에 고가용성 파일시스템 데몬 구성들이 다소 어렵게 보이시나요? 원래 항상 처음 보는 아키텍처 및 시스템 구성도들은 부담스럽기 마련입니다.

하지만

약 6년동안 훌륭한 제자들의 소중한 피드백을 회고하여, 지난 인프런 2개 강의를 런칭한 경험으로 바탕으로, 수강생분들의 눈높이에 맞춰 차근차근 하나씩 용이하게 최대한 쉽고 질 좋은 컨텐츠로 구성하였으니 부담없이 follow up 해주셔도 괜찮습니다.

special thanks to my lovely students 👨🏻‍🎓

이런 분들께
추천드려요!

학습 대상은
누구일까요?

빅데이터 처리 시스템 클러스터 구축을 직접 경험하고 싶은 수강생
데이터 분석 및 시스템에 관심있고 직무를 희망하는 학생
고가용성 클러스터 실습을 직접 경험하고 싶은 개발자
빅데이터 분석 및 구축 분야에서 강점을 만들고 싶은 취준생

선수 지식,
필요할까요?

파이썬 기초 코딩
리눅스 명령어 기초 지식
데이터베이스 기초 지식

안녕하세요
J.PHIL입니다.

안녕하세요 J.PHIL 입니다 🧑🏻‍🎓

첫번째 강의로 [ 빅데이터 시스템 구축 및 분석에 관심있는 입문자 ] 를 위해
"Mastering Big Data Processing: Tools and Techniques for Success" 강의를 오픈 하였습니다.

'수업 및 프로필' 자세한 사항들은 수업 상세 페이지에 잘 작성했으니 참고 부탁드립니다 🙏🏻

커리큘럼

전체

36개 ∙ 4시간 51분

수업 자료

가 제공되는 강의입니다.

섹션 1. Introduction to Course

3개 ∙ 22분

Greeting and Introduction
04:52
Course Overview + Small Talks
05:48
Curriculum (Theory + Code Lab + Practice Environment* )
11:24

섹션 2. 이론] Distributed File System

1개 ∙ 9분

All About Distributed System 😉
09:26

섹션 3. 이론] Intro to Big Data Frameworks

2개 ∙ 17분

Framework 1 and 2] Hadoop (HDFS + Yarn) and SPARK
13:41
Framework 3 and 4] Zookeeper (분산 코디네이터) and Zeppelin (빅데이터 노트북)
04:18

섹션 4. 이론] About SPOF and High Availability (고가용성)

1개 ∙ 6분

섹션 5. 이론] About HDFS Federation

1개 ∙ 4분

섹션 6. 이론] Final Wrap Up

1개 ∙ 4분

섹션 7. 이론] Background before CODELAB :)

1개 ∙ 5분

섹션 8. 코드랩-1] Introduction to Codelab

1개 ∙ 4분

섹션 9. 코드랩-2] Launch Base Node and Install Essential Settings

2개 ∙ 20분

섹션 10. 코드랩-4] Create 5 Nodes by My AMI

2개 ∙ 19분

섹션 11. 코드랩-5] All About Hadoop Setup

2개 ∙ 20분

섹션 12. 코드랩-6] All About Zookeeper Setup

1개 ∙ 5분

섹션 13. 코드랩-7] Clone Frameworks to Other Nodes

1개 ∙ 5분

섹션 14. 코드랩-8] Start and Demo Hadoop and Zookeeper Daemons

2개 ∙ 22분

섹션 15. 코드랩-9] All About WEB UI Setup

1개 ∙ 7분

섹션 16. 코드랩-10] All About Spark Setup and Demo Spark Job

2개 ∙ 10분

섹션 17. 코드랩-11] Demo Automatic Failover on HDFS High Availability

1개 ∙ 6분

섹션 18. 코드랩-12] Zeppelin Setup and Demo on Big Data Cluster

4개 ∙ 23분

섹션 19. 코드랩] Final Wrapup 😊

6개 ∙ 1시간 12분

섹션 20. Closing & Promotion 👩🏼‍💻

1개 ∙ 3분

강의 게시일: 2023년 10월 30일
마지막 업데이트일: 2024년 03월 15일

수강평

아직 충분한 평가를 받지 못한 강의입니다.

모두에게 도움이 되는 수강평의 주인공이 되어주세요!

빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

초급자를 위해 준비한
[데이터 엔지니어링] 강의입니다.

안녕하세요 J.PHIL 입니다 🍏

우리는 왜 강의를 들어야 할까요 🙇🏻

저희는 무엇을 배우게 되나요 📚

하지만

커리큘럼에 대해서 알려주세요 🧑🏻‍🏫

빅데이터 OR 분산처리에 관심있는 누구나 수강 가능합니다 🧑🏻‍🎓

실습 환경은 어떻게 되나요? 💻

J.PHIL 소개 👨‍👨‍👧‍👦

이런 분들께
추천드려요!

안녕하세요
J.PHIL입니다.

안녕하세요 J.PHIL 입니다 🧑🏻‍🎓

커리큘럼

수강평

빅데이터 클러스터 구축 패키지; 성공을 향한 로드맵

초급자를 위해 준비한[데이터 엔지니어링] 강의입니다.

안녕하세요 J.PHIL 입니다 🍏

우리는 왜 강의를 들어야 할까요 🙇🏻

저희는 무엇을 배우게 되나요 📚

하지만

커리큘럼에 대해서 알려주세요 🧑🏻‍🏫

빅데이터 OR 분산처리에 관심있는 누구나 수강 가능합니다 🧑🏻‍🎓

실습 환경은 어떻게 되나요? 💻

J.PHIL 소개 👨‍👨‍👧‍👦

이런 분들께추천드려요!

안녕하세요J.PHIL.css-bpd7z7{margin-bottom:2px;}입니다.

안녕하세요 J.PHIL 입니다 🧑🏻‍🎓

커리큘럼

수강평

초급자를 위해 준비한
[데이터 엔지니어링] 강의입니다.

이런 분들께
추천드려요!

안녕하세요
J.PHIL입니다.