데이터 사이언스

데이터 엔지니어링

Kafka & Spark 활용한 Realtime Datalake

Name: Kafka & Spark 활용한 Realtime Datalake
Price: 132000 KRW

초보자를 위한 Kafka & Spark 실시간 파이프라인 입문 강의. 핵심 개념부터 아키텍처까지 마스터하기 위한 올인원 강의입니다.

(5.0) 수강평 2개

수강생 89명

김현진

Kafka Apache Spark pyspark data-lake

초급자를 위해 준비한
[Kafka, Apache Spark] 강의입니다.

이런 걸 배울 수 있어요

Github과 Actions, AWS Code Deploy로 CI/CD 구현
Kafka Broker, Confluent Producer & Consumer
Prometheus & Grafana를 이용한 Kafka Dashboard 모니터링
Catalog 관리를 위한 Spark & Hive Metastore
Spark Streaming을 이용한 실전 프로젝트 구현
Kafka & Spark, Zookeeper & Yarn의 가용성 테스트

실시간 데이터 파이프라인, 왜 배워야 할까?

실시간 데이터 파이프라인 구성을 통해 신속한 분석과 의사결정을 지원하는 것은 선택이 아닌 필수입니다.

실시간 개인화 마케팅 & 추천
실시간 트렌드 분석
실시간 보안 위협 감지 및 대응

특히 AI가 기본이 된 요즘에는 AI를 활용한 실시간 추천, 감지, 번역 등 무궁무진한 사례가 존재하며 이런 아키텍처 구현을 위해 점점 더 실시간 데이터 파이프라인이 요구되고 있습니다.

수강 후에는

Kafka Broker 서비스에 대한 기본 원리 이해, 가용성 보장을 이해하고 이를 기반으로 Broker 서비스를 다룰 수 있게 됩니다.
Kafka Producer/Consumer 의 기본 원리와 고급 옵션까지 이해하고 대용량 환경에서 성능과 정합성간 Trade-off 이해를 통해 견고한 Application을 작성할 수 있게 됩니다.
Spark 이 성능을 발휘할 수 있는 조건에 대해 이해하고 성능을 최적화할 수 있는 기법을 기반으로 Application을 작성할 수 있게 됩니다.
AWS S3, Glue, Athena 등 여러 서비스와 Spark 서비스와의 연계를 통해 파이프라인의 다양성을 이해할 수 있습니다.

Ansible을 이용한 Infra 셋업 자동화

이 모든 것을 다 만들기에 해야할 것이 많지 않냐구요?

맞습니다. 매우 많습니다.

설치할 라이브러리도 많고 이것저것 설정해줘야 할게 아주 많습니다. 뭐 하나 잘 안맞으면 오류가 나죠 🤬

하지만 여러분들은 실시간 파이프라인 구현이라는 중요한 내용에만 주목해주시면 됩니다.

Infra 구성과 각종 셋업은 미리 준비된 Ansible Script를 통해 자동화가 진행됩니다.

Ansible Script는 아래 github 주소에서 미리 볼 수 있습니다.

https://github.com/hjkim-sun/datalake-ansible-playbook-season1

여러분들은 위 github repository 내용을 clone하여 셋업 과정을 쉽게 진행하게 됩니다.

🚨실습 전 참고해 주세요!

✔ Kafka Client(Producer/Consumer)는 Python 으로 작성합니다.

Python Kafka Library 는 여러 종류가 있으나 그 중 가장 성능이 좋은 Confluent Kafka Library를 사용합니다. Confluent Kafka 는 Java 못지않게 높은 성능을 보장하는 도구로써 Python 을 통해 Producer/Consumer를 작성하는 방법을 배웁니다.

✔ Spark 언어 또한 Python으로 작성합니다.

Spark Application을 작성할 때 가장 성능이 좋은 언어는 Scala 입니다. 그러나 Spark 을 위해 별도로 Scala 언어를 배우기에는 분명 부담이 있습니다. Python 언어만큼 대중적이지 않고 딥러닝/AI 관련 라이브러리도 상대적으로 적다는 단점이 있습니다. 그래서 현업에서는 Python을 이용해 Spark 프로그램을 개발하는 경우가 많습니다. 특히 딥러닝/AI 연동을 고려한다면 Python 언어로 작성하는 것은 훌륭한 대안이 될 수 있습니다.

🚨AWS 예상 실습 비용

실습은 AWS Cloud 에서 진행되며 실습 비용이 별도로 발생합니다.

✔ 한 달 동안 약 40시간 사용했을 때 약 4만원 정도 AWS 비용 발생합니다. (환율 1,430 기준)

실습 비용은 대부분 EC2(컴퓨팅 서비스)에서 발생하므로 실습&과제 후 꼭 서버 인스턴스를 중지해주셔야 합니다. 그러나 그 외 비용(서버 인스턴스에 연결되어 있는 볼륨(EBS)과 EIP)의 경우 서버 인스터스를 중지하더라도 비용이 발생합니다. 따라서 완강을 빨리 하실수록 AWS 실습 비용은 감소합니다.

✔ 서버를 모두 중지해놔도 서버 볼륨 비용으로 인해 한 달 약 3만원 정도 발생합니다.

따라서 똑같이 40시간을 사용해도 한 달이 아닌 두 달 동안 사용하신다면 3만원이 추가되어 총 7만원 정도의 AWS 요금이 발생하게 됩니다. 따라서 가급적 완강을 빨리 하시기를 추천드립니다.

✨ 커뮤니케이션

여러 도구와 연계하는 작업이 많은 강의의 특성상 궁금한 내용 또는 예상치 못한 오류가 생기는 경우 Q&A 게시판만으로 의사소통이 어려울 수 있습니다.

(경험상 질문 등록되면 제가 답변을 달고 재확인 되기까지 3~4 일 정도 소요되는 것으로 보입니다)

이런 의사소통의 불편함을 줄이고 수강하신 분들에게 끝까지 고품질 서비스를 제공해드리기 위해 디스코드 채널을 운영하고자 합니다.

https://discord.gg/MURJAFZ8

강의에 대한 내용이어도 좋고, 아니어도 좋습니다. 사소한 얘기를 나누어도 좋습니다.

원활한 커뮤니케이션을 위한 곳이니 편하게 입장해 주세요

필수 사전 지식 사항

파이썬 기본 지식

기본적인 자료구조와 if/for/while 등 기본적인 문법. 그리고 함수를 작성할 수 있을 정도의 실력
리눅스 기본 명령어

대부분의 Infra 작업은 Ansible 자동화 도구를 통해 진행됩니다. 그러나 리눅스의 기본 명령어는 알고 있어야 수강 가능합니다. (vi 편집기, cd/mv/rm 등의 기본 명령어)
SQL

기본 sql 지식 (SELECT, WHERE, JOIN, GROUP BY, ORDER BY 등) 알고 있으면 따라오시기에 훨씬 수월합니다.
(어려운 SQL은 없습니다)

권고 사전 지식 사항

도커 컨테이너
컨테이너를 이용해 모니터링 도구를 셋업합니다. 컨테이너의 원리를 알고 있으면 도움이 됩니다.
git
CI/CD 를 위해 git 을 활용해 직접 코드 배포까지 진행합니다. 사용법은 모두 차근차근 설명드리지만 알고 있으면 더욱 좋습니다.
파이썬 Class 이해
실습으로 진행되는 대부분의 파이썬 프로그램들은 Class 구조를 통해 구조화가 진행됩니다. 따라서 Class 및 객체지향에 대한 이해가 있으면 실습하기에 수월합니다
(몰라도 상관없어요. 다 설명합니다)

이런 분들께
추천드려요!

학습 대상은
누구일까요?

Kafka & Spark을 배우고 싶은 분
실시간 파이프라인 구현을 배우고 싶은 분
데이터 엔지니어로써 여러 지식과 Skill 개발이 필요하신 분

선수 지식,
필요할까요?

파이썬에 대한 기본 개념
SQL에 대한 기본 지식 (Filter, GroupBy, OrderBy 수준)
Linux 기초적인 커맨드를 다룰 수 있는 수준

안녕하세요
김현진입니다.

880

명

수강생

개

수강평

137

개

답변

4.9

점

강의 평점

개

강의

안녕하세요.

정보관리기술사를 취득한 이후 지금까지 얻은 지식을 많은 사람들에게 공유하고,

특히 데이터 엔지니어를 희망하고 공부하고 싶은 분 들에게 도움이 되고자 컨텐츠를 제작하고 있습니다.

반갑습니다 ^^

Contact: hjkim_sun@naver.com

커리큘럼

전체

113개 ∙ (28시간 23분)

해당 강의에서 제공:

수업자료

섹션 1. 데이터레이크 소개

4개 ∙ (43분)

섹션 2. 데이터레이크 아키텍처 설계

3개 ∙ (24분)

5. 데이터레이크 아키텍처 설계(람다 아키텍처)
12:15
6. 데이터레이크 아키텍처 설계(카파 아키텍처)
03:50
7. 데이터레이크 아키텍처 설계하기
08:46

섹션 3. 개발환경 설정

3개 ∙ (26분)

8. git설치하기
05:55
9. 파이썬&파이참 설치
11:58
10. github레파지토리 생성&연결
08:32

섹션 4. AWS 환경생성

9개 ∙ (1시간 57분)

섹션 5. Kafka 셋업

7개 ∙ (1시간 55분)

섹션 6. Kafka Producer 만들기

9개 ∙ (2시간 17분)

섹션 7. Kafka UI와 모니터링

3개 ∙ (54분)

섹션 8. Kafka Consumer 만들기

7개 ∙ (1시간 54분)

섹션 9. Spark 셋업과 기초

7개 ∙ (1시간 49분)

섹션 10. Spark Cluster구성

5개 ∙ (1시간 21분)

섹션 11. Spark 이해

10개 ∙ (3시간 3분)

섹션 12. Spark SQL

9개 ∙ (2시간 5분)

섹션 13. Spark Streaming

8개 ∙ (2시간 11분)

섹션 14. Streaming 프로그램 구성

6개 ∙ (1시간 24분)

섹션 15. Dashboard 구성

1개 ∙ (17분)

섹션 16. Spark 성능 최적화와 문제해결

8개 ∙ (2시간 20분)

섹션 17. Spark Steaming Master

6개 ∙ (1시간 21분)

섹션 18. 가용성 테스트

7개 ∙ (1시간 37분)

섹션 19. 마무리하며

1개 ∙ (15분)

강의 게시일: 2025. 03. 06.

마지막 업데이트일: 2025. 05. 13.

수강평

아직 충분한 평가를 받지 못한 강의입니다.

모두에게 도움이 되는 수강평의 주인공이 되어주세요!