Kafka & Spark ํ์ฉํ ์ค์๊ฐ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ฑํด๋ณด๊ณ AWS Cloud Datalake๋ฅผ ๊ตฌํํด๋ณด๋ ๊ฐ์์ ๋๋ค
Github๊ณผ Actions, AWS Code Deploy๋ก CI/CD ๊ตฌํ
Kafka Broker, Confluent Producer & Consumer
Prometheus & Grafana๋ฅผ ์ด์ฉํ Kafka Dashboard ๋ชจ๋ํฐ๋ง
Catalog ๊ด๋ฆฌ๋ฅผ ์ํ Spark & Hive Metastore
Spark Streaming์ ์ด์ฉํ ์ค์ ํ๋ก์ ํธ ๊ตฌํ
Kafka & Spark, Zookeeper & Yarn์ ๊ฐ์ฉ์ฑ ํ ์คํธ
์ค์๊ฐ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ ๊ตฌ์ฑ์ ํตํด ์ ์ํ ๋ถ์๊ณผ ์์ฌ๊ฒฐ์ ์ ์ง์ํ๋ ๊ฒ์ ์ ํ์ด ์๋ ํ์์ ๋๋ค.
์ค์๊ฐ ๊ฐ์ธํ ๋ง์ผํ & ์ถ์ฒ
์ค์๊ฐ ํธ๋ ๋ ๋ถ์
์ค์๊ฐ ๋ณด์ ์ํ ๊ฐ์ง ๋ฐ ๋์
ํนํ AI๊ฐ ๊ธฐ๋ณธ์ด ๋ ์์ฆ์๋ AI๋ฅผ ํ์ฉํ ์ค์๊ฐ ์ถ์ฒ, ๊ฐ์ง, ๋ฒ์ญ ๋ฑ ๋ฌด๊ถ๋ฌด์งํ ์ฌ๋ก๊ฐ ์กด์ฌํ๋ฉฐ ์ด๋ฐ ์ํคํ ์ฒ ๊ตฌํ์ ์ํด ์ ์ ๋ ์ค์๊ฐ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ด ์๊ตฌ๋๊ณ ์์ต๋๋ค.
๊ทธ๋์ ์ค๋นํ์ต๋๋ค.
Kafka & Spark ์ ๊ธฐ๋ณธ๋ถํฐ ์ฐจ๊ทผ์ฐจ๊ทผํ, ํ์ดํ๋ผ์ธ ๊ตฌํ์ ๋์ด ์ํคํ ์ฒ ๊ด์ ์์์ ์ค๊ณ ๋ฐฉ๋ฒ๊น์ง ์ค๋นํ์ต๋๋ค.
๐ ๋ก์ปฌ ๋จธ์ ์ ๋จ์ผ ๊ตฌ์ฑ์ No! ๋์ธ๋ ํด๋ผ์ฐ๋์ ๋๋ค. AWS Cloud๋ฅผ ํ์ฉํฉ๋๋ค.
๐ CI/CD๋ ๊ธฐ๋ณธ์ด์ฃ ? github Actions์ AWS Code Deploy๋ฅผ ํตํด CI/CD๋ฅผ ๊ตฌ์ฑํฉ๋๋ค.
๐ ๊ธฐ๋ณธ๋ถํฐ ์ฒ์ฒํ, ํ์ง๋ง ์ค์ต๊ณผ ๊ณผ์ ๋ฅผ ํตํด ๊ฐ์ ๋ด์ฉ์ด ๋ด์ฌํ๊ฐ ๋ ์ ์๋๋ก ๋์๋๋ฆฝ๋๋ค.
๐ ์๋ฒ ํด๋ฌ์คํฐ ๊ตฌ์ฑ๋ถํฐ ์ค์๊ฐ ํ์ดํ๋ผ์ธ ๊ตฌ์ฑ ๋ฐ ๊ฐ์ฉ์ฑ ํ ์คํธ๊น์ง All in One ๊ตฌ์ฑ
์ค์๊ฐ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ๋ฐฐ์ฐ๊ณ ์ถ์ด์.
๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ๊ด์ฌ์ ์์ง๋ง ์ค์๊ฐ ์ฒ๋ฆฌ๋ ๊ฒฝํํด๋ณด์ง ๋ชปํ ๋ถ
DataLake ๋ฅผ ์๊ณ ์ถ์ด์.
Cloud ์์ ๊ตฌ์ถ๋๋ DataLake๊ฐ ์ด๋ป๊ฒ ๊ตฌํ๋๋์ง ๋ฐฐ์ฐ๊ณ ์ถ์ผ์ ๋ถ
์ํคํ
ํธ๋ก ์ฑ์ฅํ๊ณ ์ถ์ด์.
์ธํ๋ผ ์ค๊ณ๋ถํฐ ์ฝ๋๋ ๋ฒจ๊น์ง ๋์ฉ๋ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๋ฉด์ ๊ฒฌ๊ณ ํ ์ํคํ
์ฒ ๊ตฌํ์ด ๊ถ๊ธํ์ ๋ถ
Kafka Broker ์๋น์ค์ ๋ํ ๊ธฐ๋ณธ ์๋ฆฌ ์ดํด, ๊ฐ์ฉ์ฑ ๋ณด์ฅ์ ์ดํดํ๊ณ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก Broker ์๋น์ค๋ฅผ ๋ค๋ฃฐ ์ ์๊ฒ ๋ฉ๋๋ค.
Kafka Producer/Consumer ์ ๊ธฐ๋ณธ ์๋ฆฌ์ ๊ณ ๊ธ ์ต์ ๊น์ง ์ดํดํ๊ณ ๋์ฉ๋ ํ๊ฒฝ์์ ์ฑ๋ฅ๊ณผ ์ ํฉ์ฑ๊ฐ Trade-off ์ดํด๋ฅผ ํตํด ๊ฒฌ๊ณ ํ Application์ ์์ฑํ ์ ์๊ฒ ๋ฉ๋๋ค.
Spark ์ด ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋ ์กฐ๊ฑด์ ๋ํด ์ดํดํ๊ณ ์ฑ๋ฅ์ ์ต์ ํํ ์ ์๋ ๊ธฐ๋ฒ์ ๊ธฐ๋ฐ์ผ๋ก Application์ ์์ฑํ ์ ์๊ฒ ๋ฉ๋๋ค.
AWS S3, Glue, Athena ๋ฑ ์ฌ๋ฌ ์๋น์ค์ Spark ์๋น์ค์์ ์ฐ๊ณ๋ฅผ ํตํด ํ์ดํ๋ผ์ธ์ ๋ค์์ฑ์ ์ดํดํ ์ ์์ต๋๋ค.
์ด์ ๋์ธ๋ ํด๋ผ์ฐ๋์ ๋๋ค. EC2 ์๋ฒ๋ฅผ ์ด์ฉํด ์ค์ ๊ณผ ๊ฐ์ด ํด๋ฌ์คํฐ๋ฅผ ๊ตฌ์ฑํด๋ด ๋๋ค.
Kafka & Spark์ ๊ธฐ๋ณธ๋ถํฐ ์ฒ์ฒํ ๋ฐฐ์๋๋ค.
AWS์ S3, Glue, Athena ์๋น์ค๋ฅผ ํตํด Datalake on AWS์ ๊ธฐ๋ณธ ๊ฐ๋ ์ ๋ฐฐ์๋๋ค.
ํ์ดํ๋ผ์ธ์ ์์ง๋ถํฐ ํ์ฉ๊น์ง ๊ตฌ๋ถํด ๋ณผ ์ ์์ต๋๋ค.
๊ฐ๊ฐ์ ๋จ๊ณ๋ง๋ค ์ด๋ค ๋๊ตฌ๋ฅผ ์ด๋ป๊ฒ ์ฌ์ฉํ๋์ง, ์ด๋ป๊ฒ ์ฐ๊ณ ๋๋์ง๋ฅผ ๋ช ํํ ์์์ผ ํฉ๋๋ค.
๋ฐ๋ผ์ Kafka ์ Spark์ ๋จ์ํ ๋ฐฐ์ฐ๋๋ฐ ๊ทธ์น์ง ์์ต๋๋ค.
์ต์ข ์ ์ผ๋ก ์ค์ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํด๋ณด๊ณ
๊ทธ ๊ณผ์ ์์ CI/CD, ๊ฐ์ฉ์ฑ ํ ์คํธ, ๋ฌธ์ ํด๊ฒฐ๊ณผ ์ฑ๋ฅํฅ์ ๋ฑ์ ๋ฐฉ๋ฒ์ ๋ฐฐ์๋๋ค.
๋ฐ์ดํฐ๋ ์ดํฌ ๊ฐ๋
Lambda
Kappa Architecture
ํ์ดํ๋ผ์ธ ์ค๊ณ
Kafka ๊ธฐ๋ณธ
Broker
Kafka Producer
Kafka Consumer
๋ชจ๋ํฐ๋ง
UI For Apache Kafka
Prometheus
Grafana
Apache Spark ๊ธฐ๋ณธ
Spark Cluster
Spark SQL
Spark Streaming
์ฑ๋ฅํฅ์ Tip
์ฑ๋ฅํฅ์ Checklist
Trouble Shooting
Spark Monitoring
๊ฐ์ฉ์ฑ ํ ์คํธ
Zookeeper Cluster
Kafka Broker
Spark Cluster
ํ์ดํ๋ผ์ธ ์ค๊ณ
์ค์๊ฐ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ ๊ตฌ์ฑ์ ์ํด ์ ํ ๊ฐ๋ฅํ ๋๊ตฌ๋ค์ ์กฐํฉ.
๊ทธ๋ฆฌ๊ณ ์ค์ต์ ์ํด ์ ํํ๋ Kafka & Spark์ ๋ฐ์ดํฐ ํ๋ฆ์ ์ดํดํ๊ณ ๊ตฌํํด๋ด ๋๋ค.
CI/CD: Github Actions + Code Deploy
CI/CD ๋ ๊ธฐ๋ณธ์ค์ ๊ธฐ๋ณธ.
๋ก์ปฌ git โ Github Repository ์ฐ๋ ํ ์๋ ๋ฐฐํฌ๊ฐ ๋ ์ ์๋๋ก Actions + Code Deploy ์กฐํฉ์ ํ์ฉํฉ๋๋ค.
Kafka Web UI
UI For Apache Kafka ๋ฅผ ํตํด Kafka๋ฅผ ์ฝ๊ฒ ๊ด๋ฆฌํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์๋๋ค.
Prometheus + Grafana
๋ชจ๋ํฐ๋ง ํ์ดํ๋ผ์ธ ๋์ธ.
Prometheus + Grafana ์กฐํฉ์ ํตํด Kafka ๋ฅผ ๋ชจ๋ํฐ๋งํ๊ณ ๋ ๋์๊ฐ Spark Streaming ์ LAG ๋ชจ๋ํฐ๋ง ๋ฐฉ์์ ๋ฐฐ์๋๋ค.
Kafka Source + Spark Streaming
Kafka + Spark Streaming ์กฐํฉ์ ํตํด ์ค์ ํ์ดํ๋ผ์ธ์ ๊ตฌํํด๋ณด๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก Dashboard๋ฅผ ์๊ฐํํฉ๋๋ค.
AWS Athena
AWS Athena ์๋น์ค๋ ์๋ฒ๋ฆฌ์ค ์ฟผ๋ฆฌ ์๋น์ค์ ๋๋ค. ์ด ์๋น์ค๋ฅผ ํ์ฉํด Spark Streaming์ ์ฒ๋ฆฌ ๊ฒฐ๊ณผ๋ฅผ ์ง์ ํ์ธํด๋ด ๋๋ค.
Python Dashboard
๊ตฌํํ ์ค์๊ฐ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ์ด์ฉํด Dashboard๋ก ์๊ฐํํ๊ณ ํ์ดํ๋ผ์ธ์ ํ๋ฆ์ ์ดํดํฉ๋๋ค.
๊ฐ์ฉ์ฑ ํ ์คํธ
์ต๋ํ ์ค์ ์ ๊ฐ์ ์ํคํ ์ฒ ๊ตฌํ์ ํตํด ๊ฒฌ๊ณ ํ ์ํคํ ์ฒ๋ฅผ ๊ตฌํํด๋ณด๊ณ ๊ฐ์ฉ์ฑ ํ ์คํธ ์งํํฉ๋๋ค. Kafka, Spark, Yarn Cluster ์ ๊ฐ์ฉ์ฑ์ ์ดํดํ๊ณ ํ์ธํฉ๋๋ค.
Ansible์ ์ด์ฉํ Infra ์ ์ ์๋ํ
์ด ๋ชจ๋ ๊ฒ์ ๋ค ๋ง๋ค๊ธฐ์ ํด์ผํ ๊ฒ์ด ๋ง์ง ์๋๊ตฌ์?
๋ง์ต๋๋ค. ๋งค์ฐ ๋ง์ต๋๋ค.
์ค์นํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ๋ง๊ณ ์ด๊ฒ์ ๊ฒ ์ค์ ํด์ค์ผ ํ ๊ฒ ์์ฃผ ๋ง์ต๋๋ค. ๋ญ ํ๋ ์ ์๋ง์ผ๋ฉด ์ค๋ฅ๊ฐ ๋์ฃ ๐คฌ
ํ์ง๋ง ์ฌ๋ฌ๋ถ๋ค์ ์ค์๊ฐ ํ์ดํ๋ผ์ธ ๊ตฌํ์ด๋ผ๋ ์ค์ํ ๋ด์ฉ์๋ง ์ฃผ๋ชฉํด์ฃผ์๋ฉด ๋ฉ๋๋ค.
Infra ๊ตฌ์ฑ๊ณผ ๊ฐ์ข ์ ์ ์ ๋ฏธ๋ฆฌ ์ค๋น๋ Ansible Script๋ฅผ ํตํด ์๋ํ๊ฐ ์งํ๋ฉ๋๋ค.
Ansible Script๋ ์๋ github ์ฃผ์์์ ๋ฏธ๋ฆฌ ๋ณผ ์ ์์ต๋๋ค.
https://github.com/hjkim-sun/datalake-ansible-playbook-season1
์ฌ๋ฌ๋ถ๋ค์ ์ github repository ๋ด์ฉ์ cloneํ์ฌ ์ ์ ๊ณผ์ ์ ์ฝ๊ฒ ์งํํ๊ฒ ๋ฉ๋๋ค.
Python Kafka Library ๋ ์ฌ๋ฌ ์ข ๋ฅ๊ฐ ์์ผ๋ ๊ทธ ์ค ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ Confluent Kafka Library๋ฅผ ์ฌ์ฉํฉ๋๋ค. Confluent Kafka ๋ Java ๋ชป์ง์๊ฒ ๋์ ์ฑ๋ฅ์ ๋ณด์ฅํ๋ ๋๊ตฌ๋ก์จ Python ์ ํตํด Producer/Consumer๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์๋๋ค.
Spark Application์ ์์ฑํ ๋ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ ์ธ์ด๋ Scala ์
๋๋ค. ๊ทธ๋ฌ๋ Spark ์ ์ํด ๋ณ๋๋ก Scala ์ธ์ด๋ฅผ ๋ฐฐ์ฐ๊ธฐ์๋ ๋ถ๋ช
๋ถ๋ด์ด ์์ต๋๋ค. Python ์ธ์ด๋งํผ ๋์ค์ ์ด์ง ์๊ณ ๋ฅ๋ฌ๋/AI ๊ด๋ จ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ์๋์ ์ผ๋ก ์ ๋ค๋ ๋จ์ ์ด ์์ต๋๋ค. ๊ทธ๋์ ํ์
์์๋ Python์ ์ด์ฉํด Spark ํ๋ก๊ทธ๋จ์ ๊ฐ๋ฐํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ํนํ ๋ฅ๋ฌ๋/AI ์ฐ๋์ ๊ณ ๋ คํ๋ค๋ฉด Python ์ธ์ด๋ก ์์ฑํ๋ ๊ฒ์ ํ๋ฅญํ ๋์์ด ๋ ์ ์์ต๋๋ค.
์ค์ต์ AWS Cloud ์์ ์งํ๋๋ฉฐ ์ค์ต ๋น์ฉ์ด ๋ณ๋๋ก ๋ฐ์ํฉ๋๋ค.
์ค์ต ๋น์ฉ์ ๋๋ถ๋ถ EC2(์ปดํจํ ์๋น์ค)์์ ๋ฐ์ํ๋ฏ๋ก ์ค์ต&๊ณผ์ ํ ๊ผญ ์๋ฒ ์ธ์คํด์ค๋ฅผ ์ค์งํด์ฃผ์ ์ผ ํฉ๋๋ค. ๊ทธ๋ฌ๋ ๊ทธ ์ธ ๋น์ฉ(์๋ฒ ์ธ์คํด์ค์ ์ฐ๊ฒฐ๋์ด ์๋ ๋ณผ๋ฅจ(EBS)๊ณผ EIP)์ ๊ฒฝ์ฐ ์๋ฒ ์ธ์คํฐ์ค๋ฅผ ์ค์งํ๋๋ผ๋ ๋น์ฉ์ด ๋ฐ์ํฉ๋๋ค. ๋ฐ๋ผ์ ์๊ฐ์ ๋นจ๋ฆฌ ํ์ค์๋ก AWS ์ค์ต ๋น์ฉ์ ๊ฐ์ํฉ๋๋ค.
๋ฐ๋ผ์ ๋๊ฐ์ด 40์๊ฐ์ ์ฌ์ฉํด๋ ํ ๋ฌ์ด ์๋ ๋ ๋ฌ ๋์ ์ฌ์ฉํ์ ๋ค๋ฉด 3๋ง์์ด ์ถ๊ฐ๋์ด ์ด 7๋ง์ ์ ๋์ AWS ์๊ธ์ด ๋ฐ์ํ๊ฒ ๋ฉ๋๋ค. ๋ฐ๋ผ์ ๊ฐ๊ธ์ ์๊ฐ์ ๋นจ๋ฆฌ ํ์๊ธฐ๋ฅผ ์ถ์ฒ๋๋ฆฝ๋๋ค.
Java ๊ธฐ๋ฐ์ Producer/Consumer ๊ฐ๋ฐ
Kafka Connect (Season2 ์์ )
Schema Registry (Season2 ์์ )
Kafka Streams
KSQL
๋จธ์ ๋ฌ๋ ๋ฐ ๋ฅ๋ฌ๋
Open Table Format (ex. iceberg) (Season2 ์์ )
Scala ๊ธฐ๋ฐ์ Application (pyspark์ผ๋ก๋ง ์์ฑํฉ๋๋ค)
์ฌ๋ฌ ๋๊ตฌ์ ์ฐ๊ณํ๋ ์์ ์ด ๋ง์ ๊ฐ์์ ํน์ฑ์ ๊ถ๊ธํ ๋ด์ฉ ๋๋ ์์์น ๋ชปํ ์ค๋ฅ๊ฐ ์๊ธฐ๋ ๊ฒฝ์ฐ Q&A ๊ฒ์ํ๋ง์ผ๋ก ์์ฌ์ํต์ด ์ด๋ ค์ธ ์ ์์ต๋๋ค.
(๊ฒฝํ์ ์ง๋ฌธ ๋ฑ๋ก๋๋ฉด ์ ๊ฐ ๋ต๋ณ์ ๋ฌ๊ณ ์ฌํ์ธ ๋๊ธฐ๊น์ง 3~4 ์ผ ์ ๋ ์์๋๋ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค)
์ด๋ฐ ์์ฌ์ํต์ ๋ถํธํจ์ ์ค์ด๊ณ ์๊ฐํ์ ๋ถ๋ค์๊ฒ ๋๊น์ง ๊ณ ํ์ง ์๋น์ค๋ฅผ ์ ๊ณตํด๋๋ฆฌ๊ธฐ ์ํด ๋์ค์ฝ๋ ์ฑ๋์ ์ด์ํ๊ณ ์ ํฉ๋๋ค.
๊ฐ์์ ๋ํ ๋ด์ฉ์ด์ด๋ ์ข๊ณ , ์๋์ด๋ ์ข์ต๋๋ค. ์ฌ์ํ ์๊ธฐ๋ฅผ ๋๋์ด๋ ์ข์ต๋๋ค.
์ํํ ์ปค๋ฎค๋์ผ์ด์ ์ ์ํ ๊ณณ์ด๋ ํธํ๊ฒ ์ ์ฅํด ์ฃผ์ธ์
[OS] ๋๋ถ๋ถ์ ์ค์ต์ AWS์์ ์งํํฉ๋๋ค. ๋ฐ๋ผ์ Window/MacOS ์๊ด์์ด ์๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
[์ฑ๋ฅ] ๋์ CPU/Memory ์คํ์ ์๊ตฌํ์ง ์์ต๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉํ๋ ๋ ธํธ๋ถ/๋ฐ์คํฌํ์ด๋ฉด ์ถฉ๋ถํ ์๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
[๊ธฐํ] ์ธํฐ๋ท์ด ๋๋ ํ๊ฒฝ์ด๋ฉด ์ผ๋ง๋ ์ง ์๊ฐ ๊ฐ๋ฅํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ AWS Cloud ๋น์ฉ ๊ฒฐ์ ๊ฐ๋ฅํ ์ ์ฉ์นด๋๊ฐ ํ์ํฉ๋๋ค.
๊ฐ์ 1-2 ์์ ์ ๊ณตํ๊ณ ์์ต๋๋ค.
ํ์ ์ฌ์ ์ง์ ์ฌํญ
ํ์ด์ฌ ๊ธฐ๋ณธ ์ง์
๊ธฐ๋ณธ์ ์ธ ์๋ฃ๊ตฌ์กฐ์ if/for/while ๋ฑ ๊ธฐ๋ณธ์ ์ธ ๋ฌธ๋ฒ. ๊ทธ๋ฆฌ๊ณ ํจ์๋ฅผ ์์ฑํ ์ ์์ ์ ๋์ ์ค๋ ฅ
๋ฆฌ๋ ์ค ๊ธฐ๋ณธ ๋ช ๋ น์ด
๋๋ถ๋ถ์ Infra ์์
์ Ansible ์๋ํ ๋๊ตฌ๋ฅผ ํตํด ์งํ๋ฉ๋๋ค. ๊ทธ๋ฌ๋ ๋ฆฌ๋
์ค์ ๊ธฐ๋ณธ ๋ช
๋ น์ด๋ ์๊ณ ์์ด์ผ ์๊ฐ ๊ฐ๋ฅํฉ๋๋ค. (vi ํธ์ง๊ธฐ, cd/mv/rm ๋ฑ์ ๊ธฐ๋ณธ ๋ช
๋ น์ด)
SQL
๊ธฐ๋ณธ sql ์ง์ (SELECT, WHERE, JOIN, GROUP BY, ORDER BY ๋ฑ) ์๊ณ ์์ผ๋ฉด ๋ฐ๋ผ์ค์๊ธฐ์ ํจ์ฌ ์์ํฉ๋๋ค.
(์ด๋ ค์ด SQL์ ์์ต๋๋ค)
๊ถ๊ณ ์ฌ์ ์ง์ ์ฌํญ
๋์ปค ์ปจํ
์ด๋
์ปจํ
์ด๋๋ฅผ ์ด์ฉํด ๋ชจ๋ํฐ๋ง ๋๊ตฌ๋ฅผ ์
์
ํฉ๋๋ค. ์ปจํ
์ด๋์ ์๋ฆฌ๋ฅผ ์๊ณ ์์ผ๋ฉด ๋์์ด ๋ฉ๋๋ค.
git
CI/CD ๋ฅผ ์ํด git ์ ํ์ฉํด ์ง์ ์ฝ๋ ๋ฐฐํฌ๊น์ง ์งํํฉ๋๋ค. ์ฌ์ฉ๋ฒ์ ๋ชจ๋ ์ฐจ๊ทผ์ฐจ๊ทผ ์ค๋ช
๋๋ฆฌ์ง๋ง ์๊ณ ์์ผ๋ฉด ๋์ฑ ์ข์ต๋๋ค.
ํ์ด์ฌ Class ์ดํด
์ค์ต์ผ๋ก ์งํ๋๋ ๋๋ถ๋ถ์ ํ์ด์ฌ ํ๋ก๊ทธ๋จ๋ค์ Class ๊ตฌ์กฐ๋ฅผ ํตํด ๊ตฌ์กฐํ๊ฐ ์งํ๋ฉ๋๋ค. ๋ฐ๋ผ์ Class ๋ฐ ๊ฐ์ฒด์งํฅ์ ๋ํ ์ดํด๊ฐ ์์ผ๋ฉด ์ค์ตํ๊ธฐ์ ์์ํฉ๋๋ค
(๋ชฐ๋ผ๋ ์๊ด์์ด์. ๋ค ์ค๋ช
ํฉ๋๋ค)
ํ์ต ๋์์
๋๊ตฌ์ผ๊น์?
Kafka & Spark์ ๋ฐฐ์ฐ๊ณ ์ถ์ ๋ถ
์ค์๊ฐ ํ์ดํ๋ผ์ธ ๊ตฌํ์ ๋ฐฐ์ฐ๊ณ ์ถ์ ๋ถ
๋ฐ์ดํฐ ์์ง๋์ด๋ก์จ ์ฌ๋ฌ ์ง์๊ณผ Skill ๊ฐ๋ฐ์ด ํ์ํ์ ๋ถ
์ ์ ์ง์,
ํ์ํ ๊น์?
ํ์ด์ฌ์ ๋ํ ๊ธฐ๋ณธ ๊ฐ๋
SQL์ ๋ํ ๊ธฐ๋ณธ ์ง์ (Filter, GroupBy, OrderBy ์์ค)
Linux ๊ธฐ์ด์ ์ธ ์ปค๋งจ๋๋ฅผ ๋ค๋ฃฐ ์ ์๋ ์์ค
715
๋ช
์๊ฐ์
32
๊ฐ
์๊ฐํ
119
๊ฐ
๋ต๋ณ
4.9
์
๊ฐ์ ํ์
2
๊ฐ
๊ฐ์
์๋ ํ์ธ์.
์ ๋ณด๊ด๋ฆฌ๊ธฐ์ ์ฌ๋ฅผ ์ทจ๋ํ ์ดํ ์ง๊ธ๊น์ง ์ป์ ์ง์์ ๋ง์ ์ฌ๋๋ค์๊ฒ ๊ณต์ ํ๊ณ ,
ํนํ ๋ฐ์ดํฐ ์์ง๋์ด๋ฅผ ํฌ๋งํ๊ณ ๊ณต๋ถํ๊ณ ์ถ์ ๋ถ ๋ค์๊ฒ ๋์์ด ๋๊ณ ์ ์ปจํ ์ธ ๋ฅผ ์ ์ํ๊ณ ์์ต๋๋ค.
๋ฐ๊ฐ์ต๋๋ค ^^
Contact: hjkim_sun@naver.com
์ ์ฒด
113๊ฐ โ (28์๊ฐ 23๋ถ)
ํด๋น ๊ฐ์์์ ์ ๊ณต:
๊ฐ์ ์๊ฐ
15:49
AWS EIP ๋ถ์ฌํ๊ธฐ
02:39
AWS NAT ์ฐ๊ฒฐํ๊ธฐ
14:44
Ansible ์ค์น
11:10
github Action ์ค์
27:01
github Action ์คํ
17:33
Kafka ๊ฐ๋
07:33
Kafka ์์ํ๊ธฐ
16:58
Kafka ์ํคํ ์ฒ
17:21
Broker ์ต์
14:01
Topic ์ต์
23:19
API ํธ์ถํ๊ธฐ
08:36
Sync vs Async Commit
16:55
Consumer Group
14:56
Coordinator & Leader
12:08
Partition Assignment
14:26
Spark ์๋ฒ ์์ฑ
25:51
Spark ์ค์นํ๊ธฐ
08:35
Spark Program ๊ตฌ์กฐ
18:31
Spark on Yarn
11:41
transform vs action
12:16
DataFrame Cache
30:26
DataFrame ํํฐ์
19:36
Driver์ Executor
13:00
Job & Stage & Task
21:31
Spark Plan
22:13
DataFrame join
15:07
View ํ์ฉํ๊ธฐ
11:13
DataFrame vs SQL
14:45
Spark Catalog
15:39
Hive metastore
13:08
Write to S3
15:59
Kafka Source
15:54
Offset Checkpoint
14:58
Kafka Source Options
17:19
foreachBatch
15:18
Sink to S3
23:09
DataFrame Checkpoint
16:34
AWS glue & athena
14:34
Dashboard ๋ง๋ค๊ธฐ
17:52
Spark UDF
15:39
Spark Join ์ ๋ต
06:30
Spark AQE
24:58
Spark ๋ฌธ์ ํด๊ฒฐ
24:14
Kafka Sink
09:57
Streaming Trigger
08:59
Streaming Window
17:03
Streaming watermark
17:39
๋ง๋ฌด๋ฆฌํ๋ฉฐ
15:37