스파크 머신러닝 완벽 가이드 - Part 1
스파크(Spark) 머신러닝의 핵심 Framework에 대한 이해, 난이도 높은 실전 문제를 통한 SQL 기반의 데이터 가공, 업무 도메인 분석을 통한 데이터 분석과 최적화된 머신러닝 모델 구현 능력까지, 대용량 데이터 기반에서 머신러닝 전문가로 인정 받고 싶다면 이 강의와 함께 하십시요.
서비스의 성공을 좌우하는 데이터의 힘! 그 중심에 데이터를 흐르게 하는 데이터 엔지니어링이 있어요.
미래의 데이터 엔지니어 & 백엔드 개발자 주목!
데이터 수집 · 저장 · 추출 · 가공을 위한
데이터 파이프라인을 구축하고,
데이터를 처리하는 일이에요.
데이터 엔지니어링의 열쇠 🗝️
떠오르는 빅데이터 삼대장 하둡, 스파크 & 카프카
MapReduce YARN HDFS
아파치 하둡(Apache Hadoop)은 대용량 데이터를 대형 컴퓨터 한 대로 처리하는 대신, 여러 대의 컴퓨터에서 동시에 분산 처리해 주는 컴퓨팅 플랫폼입니다. 정형 데이터는 물론 사진이나 영상 같은 비정형 데이터까지 적은 비용으로 더욱 빠르게 처리할 수 있게 해줘요.
Spark DataFrame MLFlow Tracking
아파치 스파크(Spark)는 범용 분산 데이터 처리 엔진입니다. 반복적인 처리가 필요한 작업에 대해서는 하둡 맵리듀스보다 훨씬 빠르다는 장점이 있죠. 데이터를 복합적으로 운영해야 하는 애플리케이션이라면 많은 도움이 될 수 있어요.
Stream Processing Event-Driven
비즈니스 전문 소셜미디어 링크드인(Linkedin)에서 수많은 데이터를 실시간으로 처리하기 위해 고안한 카프카(Kafka)는, 대용량 스트리밍 데이터를 수집하고 사용자들이 이를 실시간으로 소비할 수 있도록 처리해 주는 역할을 합니다.
ELK RDBMS Python Redis …
▼ 스크롤을 내려 확인해보세요 ▼
여기서 가장 인기있는 강의예요.
아무것도 몰라도 따라오다 보면 전문가가 될 수 있어요!
서비스의 성공을 좌우하는 데이터의 힘! 그 중심에 데이터를 흐르게 하는 데이터 엔지니어링이 있어요.
할인 마감 D-3
할인 마감 D-2