채널톡 아이콘

실리콘밸리 리더가 알려주는 빅데이터 처리 (Spark)

빅데이터를 처리한다는 것은 Pandas로 데이터를 처리하는 것과 무엇이 다를까요? 빅데이터 처리의 필수 프레임워크인 Spark에 대해서 배워볼까요?

이런 걸 배울 수 있어요

  • Spark

  • 빅데이터 처리

  • Databricks

  • Spark SQL

  • 데이터 엔지니어링

실리콘밸리 엔지니어가 알려주는
데이터 파이프라인 설계 실무

대용량 데이터 처리의 표준, Spark

Pandas는 소규모 데이터 처리에는 유용하지만, 데이터가 커지면 한계를 드러냅니다. 반면 Spark는 수많은 글로벌 기업이 선택한, 검증된 빅데이터 처리 프레임워크입니다.

빠른 처리 속도와 유연한 확장성은 물론, 실시간 데이터 분석과 머신러닝 파이프라인 구축까지 폭넓게 지원하며 데이터 엔지니어링뿐 아니라 AI 분야에서도 핵심 도구로 자리 잡고 있습니다.

Spark는 이제 단순한 선택이 아니라, 대규모 데이터 환경에서 반드시 익혀야 할 핵심 기술이 되었습니다.
이 강의는 Spark를 처음 접하는 분들이, 실무에 필요한 성능 최적화와 분석 설계 역량을 차근차근 쌓아갈 수 있도록 구성되어 있습니다.

이 강의를 들어야 하는 이유

Spark 학습의 출발선을 제대로 잡아주는 강의

기술의 맥락을 이해하고 나면, 이후의 학습은 훨씬 빠르고 명확해집니다. 이 강의는 데이터 처리 시스템의 변화 과정과 Pandas에서 Spark로 자연스럽게 넘어가는 과정을 학습하며 점진적으로 빅데이터 분석 기술을 익힐 수 있게 구성하였습니다.

Spark 성능 최적화와 실전 로직 구현을 아우르는 강의

이 강의는 사용자 행동 분석, 채널 흐름 파악, 매출 집계 등 다양한 시나리오를 직접 구현하며,
Spark를 빠르고 유연하게 설계하고 활용하는 핵심 전략을 학습합니다. 또한 Partition, Shuffling, 조인 방식은 물론, Parquet, UDF, UDAF 같은 고급 기능까지 단계적으로 다루며, 실무에 필요한 성능 최적화와 복잡한 로직 구현 역량을 자연스럽게 키워갈 수 있습니다.

로컬을 넘어, 프로덕션 환경에서 Spark를 다루는 경험

이 강의는 AWS EMR을 활용해 Spark 클러스터를 구성하고 실행하는 과정을 실습으로 익힙니다.
Spark 4.0의 최신 기능부터 클라우드 환경에서의 운영 흐름까지 직접 경험하며, 로컬 실습을 넘어서 실제 프로덕션 수준의 Spark 활용 역량을 갖출 수 있도록 설계되어 있습니다.

평점 4.9! 산호세 주립대 데이터 사이언스 전공생들의 극찬

이 강의는 미국 산호세 주립대 데이터 사이언스 석사과정에 포함되어 있으며, 실제 교육 현장에서 평점 4.9의 높은 평가를 받았습니다. Spark 입문과 실무 전환을 동시에 준비할 수 있는, 해외에서 인정받은 실전 강의입니다.

이런 내용을 배워요

1⃣ 빅데이터 처리의 발전 역사를 통한 빅데이터 처리의 특징과 챌린지 이해
2⃣ Pandas와 Spark의 비교를 통한 좀더 단계적인 데이터 처리 학습
3⃣ Spark 프로그램의 구조 이해와 Spark SQL 프로그래밍 학습
4⃣ Databricks 상에서 다양한 예제로 배우는 실전 Spark 프로그래밍
5⃣ AWS EMR 상에서 Spark 사용해보기와 Spark 4.0 소개

이런 분들께 추천해요

빅데이터를 분석, 처리하는 일을 하고 있어요
업무의 성격상 큰 데이터 처리를 해야하는 데이터 엔지니어/분석가/과학자

Pandas 스케일을 넘어서고 싶어요
큰 데이터 처리가 갖는 챌린지에 대한 호기심이 있는 Pandas 사용자

빅데이터 처리에 대한 이해가 필요해요
주업무는 아니지만 빅데이터처리에 대한 이해가 필요한 개발자

수강 후에는

  • 빅데이터 처리가 어떻게 발전해왔는지 어떤 챌린지가 있는지 이해합니다

  • 빅데이터 표준인 Spark이 무엇인지 구성과 프로그램 구조를 Python을 기반으로 학습합니다.

  • 예제를 바탕으로 Pandas와의 차이점에 대해 이해하고 구조화된 데이터를 처리함에 있어 SQL이 왜 효율적인지 이해하고 Spark SQL의 사용법에 대해 배웁니다.

실리콘밸리에서 검증된 빅 데이터 전문가의 인사이트

안녕하세요. 30년차 실리콘밸리 데이터 전문가 한기용입니다. 삼성전자에서 첫 커리어를 시작한 이후, 31살의 나이에 실리콘밸리로 떠나 처음 11년은 야후 등에서 웹검색 개발을 하며 빅데이터 처리와 처음 인연을 맺었습니다. 그 이후 유데미 (2021년 나스닥 상장), 폴리보어 (2015년 야후 인수) 등의 조직에서 데이터 팀을 빌딩하고 다양한 실리콘밸리와 한국 소재 기업 대상으로 데이터 자문을 하며 쌓은 노하우와 실리콘 밸리 취업률 1위를 자랑하는 산호세 주립대에서 석사 과정 학생들을 가르친 경험을 바탕으로 데이터 엔지니어를 위한 필수 스킬을 공유합니다.

수강 전 참고 사항

실습 환경

  • Spark 3.5를 Python 기반 (PySpark)으로 사용합니다. 현재 프리뷰 버전이 개발 중인  Spark 4.x에 대해서는 마지막에 간단히 소개합니다.

  • 실습 환경으로는 주로

    Databricks Community Edition을 사용합니다만 Google Colab과 Databricks Free Trial과 AWS EMR도 사용해 봅니다.


선수 지식 및 유의 사항

  • 기본적인 Python 문법 (특히 Pandas)


  • 기본 SQL 지식 (초급)


이런 분들께
추천드려요!

학습 대상은
누구일까요?

  • 기본적으로 빅 데이터 처리에 관심이 있는 사람

  • Pandas 경험이 있고 이를 빅데이터 처리 기술로 확장하고 싶은 사람

  • 빅데이터 처리가 업무적으로 필요한 사람

선수 지식,
필요할까요?

  • Pandas 사용 경험

  • 기초 Python

  • 기초 SQL

안녕하세요
한기용입니다.

790

수강생

40

수강평

23

답변

4.8

강의 평점

5

강의

컴퓨터 공학 석사 후 삼성전자에서 시작된 커리어가 친구덕에 실리콘밸리로 이어져 지난 29년간 13개의 다양한 스테이지의 회사를 다녔습니다 (창업, 대기업들, 다수의 스타트업들).

  • 야후: 엔지니어링 디렉터로 검색엔진 개발.

  • 유데미. 데이터팀을 처음 만들어 30명까지 성장. 2021년 10월에 나스닥 상장

  • 삼성전자

  • ...

중간에 11개월 쉬어보기도 했고 본의 아니게 엔젤투자자(Chartmetric, Goodtime.io, Select Star, EO, 비지니스 캔버스, ...), 어드바이저(몰로코, 블라인드, 월급쟁이부자들, ...), 컨설팅(SK텔레콤, 현대카드, 이마트 등등) 등의 역할을 하면서 나만의 브랜드를 만들었습니다. 실패를 실패가 아닌 교훈으로 보는 긍정의 힘과 꾸준함이라는 복리의 힘을 믿습니다.

https://www.linkedin.com/in/keeyonghan/

유투브 채널

월급쟁이부자들 강의

더보기

커리큘럼

전체

45개 ∙ (11시간 25분)

해당 강의에서 제공:

수업자료
강의 게시일: 
마지막 업데이트일: 

수강평

전체

2개

5.0

2개의 수강평

  • everythx님의 프로필 이미지
    everythx

    수강평 10

    평균 평점 5.0

    5

    32% 수강 후 작성

    고스펙의 실무와 대학강의를 겸비하셔서인지 이해가 쉽게됩니다

    • diazepam57님의 프로필 이미지
      diazepam57

      수강평 8

      평균 평점 5.0

      5

      60% 수강 후 작성

      한기용님의 다른 강의

      지식공유자님의 다른 강의를 만나보세요!

      비슷한 강의

      같은 분야의 다른 강의를 만나보세요!

      월 ₩21,780

      5개월 할부 시

      ₩108,900