현업 실전에서 데이터 탐색 (EDA), 데이터 클리닝, 스케일링, 이상치 처리, 로그변환, 카테고리 인코딩 등이 왜 필요한지 그리고 어떻게 다루어야 하는지를 배웁니다. 또한 테이블 데이터 합치기, (비정형) 시계열 데이터 처리 방법을 배웁니다.
이런 걸
배워요!
데이터분석과 머신러닝의 첫 단계로서 1)데이터클리닝, 2)스케일링, 3)이상치 처리, 4)데이터변환(로그변환, 카테고리 인코딩)의 기본개념을 배웁니다.
본격적인 데이터 분석에 앞서 데이터의 전체적인 특성을 살펴보고 수집한 데이터가 분석에 적절한지 알아보는 탐색적 분석(EDA) 방법을 배웁니다.
테이블 데이터, 시계열 데이터 처리를 배우며 concat, join, merge, groupby, pivot_table , walk forward 예측 개념을 명확히 이해합니다.
핵심만 담았다!
데이터 분석을 위한 필수 데이터 전처리
빅데이터 분석, 머신러닝, 딥러닝, 인공지능, 디지털전환(DT) 등, 최근 가장 수요가 많은 기술 분야입니다. 거의 모든 산업에서 이러한 기술을 담당할 데이터 사이언티스트 양성이 가장 중요하고 시급한 상황입니다.
기업에서 데이터를 다루는 실무자가 가장 많은 시간을 투자해야 하고, 실제로 데이터 분석 (머신러닝) 성능에 가장 큰 영향을 주는 업무가 데이터 전처리입니다.
이 강의에서는 효과적인 데이터 탐색(EDA) 방법, 그리고 데이터 전처리의 4가지 주요 내용인 데이터클리닝, 스케일링, 이상치 처리, 데이터 변환 개념을 설명합니다.
결측치 처리 실습, 테이터 변환 실습, 선형 분류 예측 등 이론을 바탕으로 한 실습을 통해 현업에서 필요한 데이터 분석을 바로 적용할 수 있도록 돕습니다.
실전에서는 테이블 구조 데이터들을 여러 가지 방법으로 합치는 작업이 자주 필요합니다. concat, append, join, merge, groupby, pivot_table 함수들의 차이를 이해하고 어떤 경우에 어떤 함수가 유용한지를 설명합니다.
또한, 실무에서 비정형 데이터인 시계열 데이터를 다룰 일이 많습니다. datetime을 이용하는 방법과 순차적으로 시계열 예측 방법인 walk forward 예측을 설명하고 선형모델을 이용한 이진 분류 및 회귀 예측 모델을 소개합니다.
실습코드 바로가기 👉 https://github.com/data-labs/preprocessing
학습 대상은
누구일까요?
데이터 전처리는 데이터 분석의 성능을 좌우하는 가장 중요한 과정입니다. 실전 업무에서 필요한 데이터 전처리 방법을 체계적으로 정리하고자 하는 분에게 도움이 될 것입니다.
테이블 구조 데이터를 붙이는 작업, 시계열 데이터를 다루는 기본 개념을 이해하고 현업에서 바로 활용하고자 하는 분에게 추천합니다.
선수 지식,
필요할까요?
파이썬의 기본 지식이 필요합니다.
"고장난 라디오 고칠 수 있어?"
제가 전자공학과에 입학한 후 친구로부터 받은 질문입니다. 뭐, 대답은 했습니다. "전자공학과에서는 라디오 만드는 원리를 배우는 것이지 고장난 전자제품 고치는 것은 우리 일이 아니고..."
이론으로 무장한 전문가보다 문제 해결사가 필요한 경우가 더 많습니다. 저는 실전 문제 해결이 더 중요하다고 생각합니다.
최근에는 머신러닝으로 금융, 에너지, 전자, 중장비, 물류, 신약개발, 식품 등 산업 영역의 문제를 해결하는 일을 하고 있는데, 정말 배울 것도 많고 할 일도 무궁무진한 영역인 것 같습니다. 본업은 교수지만 (강원대 컴퓨터공학과), 현장의 문제해결에 관심이 많아 여러 겸직을 하고 있습니다. AI신약개발지원센터장, KAIST 겸임교수, 그리고 데이터사이언스랩 대표를 맡고 있습니다.
AI 시대에 가장 필요한 인재는 실전 문제를 해결할 수 있는 데이터 사이언티스트라고 믿으며 여러분 모두 인기 있는 데이터 사이언티스트가 되기를 바랍니다.
전체
19개 ∙ (4시간 13분)
강의 소개
02:47
결측치 처리
18:05
스케일링
18:41
이상치 탐지
06:15
데이터 변환_카테고리 인코딩
19:14
결측치 처리 실습
14:46
데이터 변환 실습
13:44
선형 분류 예측 실습
19:40