BEST
데이터 사이언스

/

데이터 엔지니어링

실전 데이터 사이언스 Part2. 데이터 전처리

현업 실전에서 데이터 탐색 (EDA), 데이터 클리닝, 스케일링, 이상치 처리, 로그변환, 카테고리 인코딩 등이 왜 필요한지 그리고 어떻게 다루어야 하는지를 배웁니다. 또한 테이블 데이터 합치기, (비정형) 시계열 데이터 처리 방법을 배웁니다.

(4.8) 수강평 17개

수강생 229명

Thumbnail

초급자를 위해 준비한
[데이터 분석, 데이터 엔지니어링] 강의입니다.

이런 걸
배워요!

  • 데이터분석과 머신러닝의 첫 단계로서 1)데이터클리닝, 2)스케일링, 3)이상치 처리, 4)데이터변환(로그변환, 카테고리 인코딩)의 기본개념을 배웁니다.

  • 본격적인 데이터 분석에 앞서 데이터의 전체적인 특성을 살펴보고 수집한 데이터가 분석에 적절한지 알아보는 탐색적 분석(EDA) 방법을 배웁니다.

  • 테이블 데이터, 시계열 데이터 처리를 배우며 concat, join, merge, groupby, pivot_table , walk forward 예측 개념을 명확히 이해합니다.

핵심만 담았다!
데이터 분석을 위한 필수 데이터 전처리

빅데이터 분석, 머신러닝, 딥러닝, 인공지능, 디지털전환(DT) 등, 최근 가장 수요가 많은 기술 분야입니다. 거의 모든 산업에서 이러한 기술을 담당할  데이터 사이언티스트 양성이 가장 중요하고 시급한 상황입니다.

기업에서 데이터를 다루는 실무자가 가장 많은 시간을 투자해야 하고, 실제로 데이터 분석 (머신러닝) 성능에 가장 큰 영향을 주는 업무가 데이터 전처리입니다.


📝 핵심 데이터 전처리

이 강의에서는 효과적인 데이터 탐색(EDA) 방법, 그리고 데이터 전처리의 4가지 주요 내용인 데이터클리닝, 스케일링, 이상치 처리, 데이터 변환 개념을 설명합니다.


👩‍💻 이론+실습 강의 구성


타이타닉 생존자 예측하기?


결측치 처리 실습, 테이터 변환 실습, 선형 분류 예측 등 이론을 바탕으로 한 실습을 통해 현업에서 필요한 데이터 분석을 바로 적용할 수 있도록 돕습니다.


🙋‍♂️ 현장에서 필요한 주제 

테이블 다루기
시계열 데이터 처리

실전에서는 테이블 구조 데이터들을 여러 가지 방법으로 합치는 작업이 자주 필요합니다. concat, append, join, merge, groupby, pivot_table 함수들의 차이를 이해하고 어떤 경우에 어떤 함수가 유용한지를 설명합니다.

또한, 실무에서 비정형 데이터인 시계열 데이터를 다룰 일이 많습니다. datetime을 이용하는 방법과 순차적으로 시계열 예측 방법인 walk forward 예측을 설명하고 선형모델을 이용한 이진 분류 및 회귀 예측 모델을 소개합니다.


📕 강의 특징

  • 모든 내용은 실습 코드와 함께 설명합니다.

실습코드 바로가기 👉 https://github.com/data-labs/preprocessing

  • 예제 코드는 여러분이 현업에서 바로 활용할 수 있도록 구성하였습니다.
  • 코드는 간결하지만 핵심 내용을 담고 있으며 활용이 쉽도록 작성되었습니다.

👩‍💻 핵심 데이터 사이언스

데이터 사이언스의 기본이 되는 언어 파이썬.
본 강의는 파이썬 기초 지식이 선수 되는 강의입니다.
파이썬 언어에 대한 기초 지식이 없으신 분들은
실전 데이터 사이언스 Part1. 파이썬 입문 강의를 통해
선수 지식 학습을 추천드립니다.

이런 분들께
추천드려요!

학습 대상은
누구일까요?

  • 데이터 전처리는 데이터 분석의 성능을 좌우하는 가장 중요한 과정입니다. 실전 업무에서 필요한 데이터 전처리 방법을 체계적으로 정리하고자 하는 분에게 도움이 될 것입니다.

  • 테이블 구조 데이터를 붙이는 작업, 시계열 데이터를 다루는 기본 개념을 이해하고 현업에서 바로 활용하고자 하는 분에게 추천합니다.

선수 지식,
필요할까요?

  • 파이썬의 기본 지식이 필요합니다.

"고장난 라디오 고칠 수 있어?"

제가 전자공학과에 입학한 후 친구로부터 받은 질문입니다. 뭐, 대답은 했습니다. "전자공학과에서는 라디오 만드는 원리를 배우는 것이지 고장난 전자제품 고치는 것은 우리 일이 아니고..." 

이론으로 무장한 전문가보다 문제 해결사가 필요한 경우가 더 많습니다. 저는 실전 문제 해결이 더 중요하다고 생각합니다.

최근에는 머신러닝으로 금융, 에너지, 전자, 중장비, 물류, 신약개발, 식품 등 산업 영역의 문제를 해결하는 일을 하고 있는데, 정말 배울 것도 많고 할 일도 무궁무진한 영역인 것 같습니다. 본업은 교수지만 (강원대 컴퓨터공학과), 현장의 문제해결에 관심이 많아 여러 겸직을 하고 있습니다. AI신약개발지원센터장, KAIST 겸임교수, 그리고 데이터사이언스랩 대표를 맡고 있습니다.

AI 시대에 가장 필요한 인재는 실전 문제를 해결할 수 있는 데이터 사이언티스트라고 믿으며 여러분 모두  인기 있는 데이터 사이언티스트가 되기를 바랍니다.

커리큘럼

전체

19개 ∙ (4시간 13분)

  • 스케일링

    18:41

강의 게시일: 
마지막 업데이트일: 

수강평

아직 충분한 평가를 받지 못한 강의입니다.
모두에게 도움이 되는 수강평의 주인공이 되어주세요!