채널톡 아이콘
BEST

실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

실리콘밸리 소프트웨어 엔지니어에게 배우는 빅데이터를 처리하는 방법 & 파이썬을 이용해 아파치 스파크로 빅데이터 코드를 개발하는 법을 가르쳐 드립니다. 현재 14년차 소프트웨어 개발자로 웹 어플리케이션, 빅데이타 그리고 SRE & 데브옵스까지 파이썬으로 다 처리하고 있습니다. 파이썬을 이용해, 빅데이터 직군에서 꼭 알아야하는 아파치 스파크에 대해서 쉽고 깊게 배울 수 있는 기회를 절대 놓치지 마세요!

Thumbnail

중급자를 위해 준비한
[데이터 분석] 강의입니다.

이런 걸 배울 수 있어요

  • PySpark(파이스파크)

  • Apache Spark(아파치 스파크)

  • 빅데이터

  • 빅데이터 머신 러닝

  • 실시간 빅데이터 처리

  • Apache Cassandra

  • Apache Kafka

  • Apache Iceberg

실리콘밸리 엔지니어에게 직접 배우는
빅데이터 강의 들어보실래요? 🤗

실리콘밸리 개발자의 노하우를
내 방에서! 🖥️

빅데이터 개발을 실리콘밸리 개발자의 노하우와 함께 쉽게 배울 수 있습니다.

실리콘 밸리를 포함한 전 세계의 많은 대기업과 금융기관에서는 Apache Spark를 활용하여 대용량 데이터를 분석하고 머신 러닝 모델을 만들고 있습니다. 빅데이터를 다루는 일은 데이터 엔지니어와 데이터 사이언티스트의 필수 능력입니다. 그리고 빅데이터를 수집하고 분석하기 위해서는 이제 Spark의 능력은 필수입니다.

Spark는 처음부터 분산 데이터 처리 프레임을 기반으로 만들어졌기 때문에 적게는 한 대부터 많게는 수백 대의 서버에서 용량을 확장해 가면서 실시간으로 빅데이터를 처리하고 또한 이를 머신러닝 모델로 만들 수 있습니다. 현재 저는 페타바이트(PB) 이상의 데이터를 관리하며, 100TB 이상의 메모리를 운용하고 있습니다.

본 강의를 들은 후에는 아파치 스파크(Apache Spark)의 핵심 Framework에 대해 이해하고, 빅데이터를 쉽게 수집 및 가공할 수 있으며, 간단한 머신러닝 모델을 여러 대의 서버에 이용해서 만들 수 있을 겁니다. 파이썬 기본 문법을 알고 있다면 충분히 공부할 수 있어요.

빅데이터 분석을 위한 Spark의 RDD 및 Dataframe 활용 능력

머신러닝 Framework을 구성하는 다양한 기술 요소에 대한 이해 

실시간 데이터를 분석하기 위한 Spark Streaming에 대한 이해 


이런 분들께 추천해요 🙋

많은 양의 데이터를 다뤄야 하는
백엔드 개발자

빅데이터 분야를
공부해보고 싶은 개발자

스파크의 깊은 지식을 배우고
싶은 데이터 엔지니어


이런 걸 배워요 📚

1. 아파치 스파크 소개

  • 아파치 스파크에 대한 소개
  • 도커(Docker)를 이용한 설치 방법
  • 데이터브릭스 커뮤니티 에디션 가입 및 이용 방법

2. 아파치 스파크 RDD의 기본적인 특징과 예제

  • 아파치 스파크의 RDD(Resilient Distributed Dataset)의 기본적인 특징과 이용 방법
  • 아파치 스파크 RDD 예제 소개

3. 아파치 스파크 SQL과 Dataframe(데이터 프레임)

  • 아파치 스파크 SQL과 Dataframe의 소개와 응용 방법
  • 아파치 스파크 SQL, 데이터 프레임 예제

4. 아파치 스파크 엔진 Deep dive

  • 현업 종사자도 잘 모르는 아파치 스파크 엔진 지식


5. 아파치 스파크 Machine Learning(머신러닝) 라이브러리, MLlib

  • 간단한 머신러닝의 알고리즘
  • 아파치 스파크로 머신러닝 모델을 만드는 방법

6. 아파치 스파크 Streaming, 실시간 데이터 처리 라이브러리

  • 아파치 스파크로 실시간 데이터를 다루는 방법 


예상 질문 Q&A 💬

Q. 비전공자도 들을 수 있는 강의인가요?

네, 하지만 파이썬의 기본 능력과 데이터를 다루었던 경험이 있으셔야 이해가 쉬울 수 있습니다.

파이썬이 처음이시라면 유튜브를 통해 파이썬 기초를 학습하거나 아래 강의를 먼저 수강해주세요! 기초 부분만 보셔도 전체 강의를 따라오는 데 어려움은 없을 것입니다.

Q. 수업 내용을 어느 수준까지 다루나요?

스파크의 기초부터, 현업에 필요한 고급 정보까지 다룹니다.

Q. 왜 스파크를 배워야 하나요?

국내뿐만 아니라 실리콘 밸리 대부분의 회사에 스파크로 빅데이터를 처리하고 있습니다. 그만큼 스파크로 데이터를 처리하시는 방법을 아신다면, 취업하시기도 한결 쉬우실 겁니다.


지식공유자 소개 ✒️

이력 사항

포트폴리오/개인 영상



수강 전 참고 사항 📢

실습 환경

  • 운영 체제 및 버전(OS): MacOS, Linux, Ubuntu
  • 사용 도구: 가장 인기 있는 Docker를 사용(공개된 도커 이미지 사용), 데이타브릭스 커뮤니티 에디션
    • 본 강의 실습은 Docker로 환경 설정이 되어 있습니다. Docker에 대해 더 알고 싶으시다면, 제 무료 Docker 강의를 참고해 보시길 추천드립니다. 강의 링크: [https://inf.run/8eFCL]

학습 자료

  • 소스 코드 및 첨부 자료 제공

이런 분들께
추천드려요!

학습 대상은
누구일까요?

  • 파이썬의 기본적인 문법을 아시는 분

  • 빅데이터 직군으로 이직하시고 싶은 분

  • 상대적으로 안정적인 벡엔드 엔지니어가 되고 싶은 분

  • 백엔드 엔지니어로 이직하시고 싶은 분

  • 아파치 스파크의 최신 정보와 세부사항을 아시고 싶으신 분

선수 지식,
필요할까요?

  • 파이썬

  • Docker(다커)

안녕하세요
미쿡엔지니어입니다.

6,843

수강생

327

수강평

271

답변

4.7

강의 평점

22

강의

💪💪💪 최고가 되고 싶다면, 최고의 강사에게 배워야 합니다 💪💪💪

안녕하세요. UC Berkeley에서 💻 컴퓨터 공학(EECS)을 전공하고, 실리콘 밸리에서 15년 이상을 소프트웨어 엔지니어로 일해왔으며, 현재는 실리콘밸리 빅테크 본사에서 빅데이터와 DevOps를 다루는 Staff Software Engineer로 있습니다.

  • 🧭 실리콘 밸리의 혁신 현장에서 직접 배운 기술과 노하우를 온라인 강의를 통해 이제 여러분과 함께 나누고자 합니다.

  • 🚀 기술 혁신의 최전선에서 배우고 성장해 온 저와 함께, 여러분도 글로벌 무대에서 경쟁할 수 있는 역량을 키워보세요!

  • 🫡 똑똑하지는 않지만, 포기하지 않고 꾸준히 하면 뭐든지 이룰수 있다는 점을 꼭 말씀드리고 싶습니다. 항상 좋은 자료로 옆에서 도움을 드리겠습니다

 

더보기

커리큘럼

전체

65개 ∙ (7시간 40분)

해당 강의에서 제공:

수업자료
강의 게시일: 
마지막 업데이트일: 

수강평

전체

40개

4.6

40개의 수강평

  • 성범강

    수강평 1

    평균 평점 5.0

    5

    89% 수강 후 작성

    정말 좋은 강의입니다. 이 강의 덕분에 Spark를 프로젝트에서 활용해 볼 수 있었습니다.

    • 미쿡엔지니어
      지식공유자

      안녕하세요 성범강님, 도움이 되었다니 다행이네요! 시간내셔서 좋은 리뷰 남겨주셔서 감사합니다.

  • AWWW

    수강평 3

    평균 평점 4.7

    4

    100% 수강 후 작성

    전반적으로 강의 내용이나 구성은 좋습니다. 다만, 몇 가지 아쉬운 점이 있어 별 하나를 뺐습니다. 1. 강의 간에 음량이 고르지 않습니다. (어떤 강의는 작게 들리고 어떤 강의는 크게 들리고..) 2. 강의 어투에 "어..." 이 단어가 너무 자주 나와서 듣는 입장에서는 집중이 안되고 불편합니다. 3. 일부 강의 설명이 너무 짧은 것 같습니다. 예를 들어 SQL Hint 강의 같은 경우 상세 로직이나 어떤 경우에 사용하는지 자세한 설명이 있으면 좋을 것 같습니다. Deep Dive 섹션인데 Deep Dive 같다는 생각이 안듭니다.

    • 미쿡엔지니어
      지식공유자

      안녕하세요 AWWW님, 아무래도 제가 초반에 만들었던 강의라 그런지, 그럼 부분에 미흡했나 봅니다. 좋은 피드백 감사합니다.

  • Hyun Suk Lee

    수강평 1

    평균 평점 5.0

    5

    31% 수강 후 작성

    초보 에게 굉장히 도움이 됩니다.

    • 미쿡엔지니어
      지식공유자

      안녕하세요 Hyun Suk Lee님, 도움이 되셨다니 정말 기쁩니다! 질문이 있으시면 언제든지 남겨주세요

    • Discord같은 소통채널을 개설해주시면 조금 더 도움이 되지 않을까 싶습니다!

    • 미쿡엔지니어
      지식공유자

      안녕하세요 Hyun Suk Lee님, 현재 페북 비즈니스 페이지 업데이트 중이라 2024년도에는 열 수 있을 듯 합니다 ㅎㅎㅎ 좋은 조언 감사합니다!

  • communication

    수강평 1

    평균 평점 5.0

    5

    35% 수강 후 작성

    차근차근 설명해주셔서 이해가 잘갑니다. 그리고 설명을 영어로 해주시는데 듣다보니 제 귀도 트이는 것 같아요 ㅎㅋㅋㅎ spark로 실제 프로젝트? 구성하는 강의 있으면 듣고 싶습니다 ㅎㅎ! 감사합니다.

    • 미쿡엔지니어
      지식공유자

      안녕하세요. 커뮤니케이션님! 좋은 리뷰 남겨주셔서 참 감사합니다. 시간이 되면 어떤 식으로 데이타를 처리하는지 실전예제 한번 올려보도록 하겠습니다.

  • 창경현

    수강평 3

    평균 평점 5.0

    5

    60% 수강 후 작성

    • 미쿡엔지니어
      지식공유자

      안녕하세요 창경현님, 시간내서 좋은 리뷰 남겨주셔서 감사드립니다. 데이타 엔지니어시거나 앞으로 데이터 엔지니어 지원하시는데 큰 도움이 될 겁니다.

미쿡엔지니어님의 다른 강의

지식공유자님의 다른 강의를 만나보세요!

비슷한 강의

같은 분야의 다른 강의를 만나보세요!

연관 로드맵

강의가 포함된 로드맵으로 학습해 보세요!

월 ₩14,850

5개월 할부 시

25%

₩99,000

₩74,250