BEST

실전 데이터 사이언스 Part2. 데이터 전처리

Name: 실전 데이터 사이언스 Part2. 데이터 전처리
Price: 38500 KRW
Rating: 4.7 (18 reviews)

현업 실전에서 데이터 탐색 (EDA), 데이터 클리닝, 스케일링, 이상치 처리, 로그변환, 카테고리 인코딩 등이 왜 필요한지 그리고 어떻게 다루어야 하는지를 배웁니다. 또한 테이블 데이터 합치기, (비정형) 시계열 데이터 처리 방법을 배웁니다.

(4.7) 수강평 18개

수강생 234명

김화종

Python

먼저 경험한 수강생들의 후기

수강 후 이런걸 얻을 수 있어요

데이터분석과 머신러닝의 첫 단계로서 1)데이터클리닝, 2)스케일링, 3)이상치 처리, 4)데이터변환(로그변환, 카테고리 인코딩)의 기본개념을 배웁니다.
본격적인 데이터 분석에 앞서 데이터의 전체적인 특성을 살펴보고 수집한 데이터가 분석에 적절한지 알아보는 탐색적 분석(EDA) 방법을 배웁니다.
테이블 데이터, 시계열 데이터 처리를 배우며 concat, join, merge, groupby, pivot_table , walk forward 예측 개념을 명확히 이해합니다.

핵심만 담았다!
데이터 분석을 위한 필수 데이터 전처리

빅데이터 분석, 머신러닝, 딥러닝, 인공지능, 디지털전환(DT) 등, 최근 가장 수요가 많은 기술 분야입니다. 거의 모든 산업에서 이러한 기술을 담당할 데이터 사이언티스트 양성이 가장 중요하고 시급한 상황입니다.

기업에서 데이터를 다루는 실무자가 가장 많은 시간을 투자해야 하고, 실제로 데이터 분석 (머신러닝) 성능에 가장 큰 영향을 주는 업무가 데이터 전처리입니다.

📝 핵심 데이터 전처리

이 강의에서는 효과적인 데이터 탐색(EDA) 방법, 그리고 데이터 전처리의 4가지 주요 내용인 데이터클리닝, 스케일링, 이상치 처리, 데이터 변환 개념을 설명합니다.

👩‍💻 이론+실습 강의 구성

타이타닉 생존자 예측하기?

결측치 처리 실습, 테이터 변환 실습, 선형 분류 예측 등 이론을 바탕으로 한 실습을 통해 현업에서 필요한 데이터 분석을 바로 적용할 수 있도록 돕습니다.

🙋‍♂️ 현장에서 필요한 주제

_{테이블 다루기}

_{시계열 데이터 처리}

실전에서는 테이블 구조 데이터들을 여러 가지 방법으로 합치는 작업이 자주 필요합니다. concat, append, join, merge, groupby, pivot_table 함수들의 차이를 이해하고 어떤 경우에 어떤 함수가 유용한지를 설명합니다.

또한, 실무에서 비정형 데이터인 시계열 데이터를 다룰 일이 많습니다. datetime을 이용하는 방법과 순차적으로 시계열 예측 방법인 walk forward 예측을 설명하고 선형모델을 이용한 이진 분류 및 회귀 예측 모델을 소개합니다.

📕 강의 특징

모든 내용은 실습 코드와 함께 설명합니다.

실습코드 바로가기 👉 https://github.com/data-labs/preprocessing

예제 코드는 여러분이 현업에서 바로 활용할 수 있도록 구성하였습니다.
코드는 간결하지만 핵심 내용을 담고 있으며 활용이 쉽도록 작성되었습니다.

👩‍💻 핵심 데이터 사이언스

실전 데이터 사이언스 Part1. 파이썬 입문

데이터 사이언스의 기본이 되는 언어 파이썬.
본 강의는 파이썬 기초 지식이 선수 되는 강의입니다.
파이썬 언어에 대한 기초 지식이 없으신 분들은

실전 데이터 사이언스 Part1. 파이썬 입문 강의를 통해
선수 지식 학습을 추천드립니다.

이런 분들께
추천드려요

학습 대상은
누구일까요?

데이터 전처리는 데이터 분석의 성능을 좌우하는 가장 중요한 과정입니다. 실전 업무에서 필요한 데이터 전처리 방법을 체계적으로 정리하고자 하는 분에게 도움이 될 것입니다.
테이블 구조 데이터를 붙이는 작업, 시계열 데이터를 다루는 기본 개념을 이해하고 현업에서 바로 활용하고자 하는 분에게 추천합니다.

선수 지식,
필요할까요?

파이썬의 기본 지식이 필요합니다.

안녕하세요
입니다.

921

명

수강생

개

수강평

개

답변

4.8

점

강의 평점

개

강의

"고장난 라디오 고칠 수 있어?"

제가 전자공학과에 입학한 후 친구로부터 받은 질문입니다. 뭐, 대답은 했습니다. "전자공학과에서는 라디오 만드는 원리를 배우는 것이지 고장난 전자제품 고치는 것은 우리 일이 아니고..."

이론으로 무장한 전문가보다 문제 해결사가 필요한 경우가 더 많습니다. 저는 실전 문제 해결이 더 중요하다고 생각합니다.

최근에는 머신러닝으로 금융, 에너지, 전자, 중장비, 물류, 신약개발, 식품 등 산업 영역의 문제를 해결하는 일을 하고 있는데, 정말 배울 것도 많고 할 일도 무궁무진한 영역인 것 같습니다. 본업은 교수지만 (강원대 컴퓨터공학과), 현장의 문제해결에 관심이 많아 여러 겸직을 하고 있습니다. AI신약개발지원센터장, KAIST 겸임교수, 그리고 데이터사이언스랩 대표를 맡고 있습니다.

AI 시대에 가장 필요한 인재는 실전 문제를 해결할 수 있는 데이터 사이언티스트라고 믿으며 여러분 모두 인기 있는 데이터 사이언티스트가 되기를 바랍니다.

커리큘럼

전체

19개 ∙ (4시간 13분)

섹션 1. 데이터 전처리 소개

1개 ∙ (2분)

1. 강의 소개
02:47

섹션 2. 데이터 전처리

4개 ∙ (1시간 2분)

2. 결측치 처리
18:05
3. 스케일링
18:41
4. 이상치 탐지
06:15
5. 데이터 변환_카테고리 인코딩
19:14

섹션 3. 데이터 전처리 실습

3개 ∙ (48분)

6. 결측치 처리 실습
14:46
7. 데이터 변환 실습
13:44
8. 선형 분류 예측 실습
19:40

섹션 4. 탐색적 분석

4개 ∙ (49분)

섹션 5. 테이블 다루기

4개 ∙ (42분)

섹션 6. 시계열데이터 처리

3개 ∙ (47분)

강의 게시일:

마지막 업데이트일:

수강평

전체

18개

4.7

18개의 수강평

dfiejf
수강평 8
∙
평균 평점 4.9
4
100% 수강 후 작성
학교 수업같이 차근차근하고 기초적이여서 좋습니다.
- 김화종
  지식공유자
  수업처럼 진행한 것이 맞습니다.좋은 성과 얻으시기 바랍니다.
허룡
수강평 5
∙
평균 평점 4.6
5
100% 수강 후 작성
항상 친절하고 차분한 설명 때문에 이해가 잘됩니다. 감사합니다!
- 김화종
  지식공유자
  좋은평 감사합니다.
홍성은 (sungkenh)
수강평 2
∙
평균 평점 5.0
5
100% 수강 후 작성
파이썬 데이터 전처리 공부에 많은 도움이 되었습니다. 데이터 전처리에 필요한 다양한 방법론과 실제 데이터를 사용한 실습이 좋았습니다.
- 김화종
  지식공유자
  좋은 평가 감사합니다.
alcatraz76
수강평 2
∙
평균 평점 5.0
5
100% 수강 후 작성
개인적으로 매우 깔끔하고 훌륭한 강의라고 생각됩니다. 이전 Part1도 수강하였는데, 강의 진도상 내용이 조금 어려워진 부분은 있으나 문제없이 이해 할 수 있었습니다.
- 김화종
  지식공유자
  스스로 해결하셨다니 다행입니다. 궁금한 내용은 질문해주세요~
quber0201
수강평 3
∙
평균 평점 3.0
3
100% 수강 후 작성
정말 좋은 강의를 잘 들었습니다. 5시간 만에 데이타 전처리에 대한 핵심을 이해한 것 같습니다. 감사합니다 !
- 김화종
  지식공유자
  짧은 시간에 정리한다는 것이 특징입니다. 수강평 감사합니다!

인프런 10주년! 사랑주간 전체 할인 중 (8일 남음)

₩38,500

30%

₩55,000

김화종님의 다른 강의

지식공유자님의 다른 강의를 만나보세요!

실전 데이터 사이언스 Part 3. 머신러닝의 이해

김화종

기업의 디지털 전환(DT), 인공지능(AI) 도입은 머신러닝 모델 구축에서 시작합니다. 그러나 머신러닝 기술 범위는 매우 넓으며 최적의 방법을 선택하려면 기본 개념을 분명히 이해해야 합니다. 이 강의에서는 머신러닝의 기본 개념을 명확하게 이해하는데 필요한 핵심 내용을 다섯개의 예제를 중심으로 소개합니다.

초급

머신러닝

실전 데이터 사이언스 Part 3. 머신러닝의 이해

김화종

실전 데이터 사이언스 Part1. 파이썬 입문

김화종

자신의 업무에 데이터분석, 머신러닝, AI 등을 도입해야 하나 파이썬 프로그래밍에 익숙하지 않은 분을 위한 강의입니다. 데이터 사이언티스트가 되기 위해 필요한 파이썬의 핵심 기능을 단시간에 체계적으로 배우게 됩니다.

입문

Python, Numpy, Pandas

실전 데이터 사이언스 Part1. 파이썬 입문

김화종

비슷한 강의

같은 분야의 다른 강의를 만나보세요!

실리콘밸리 데이터 리더가 알려주는 Airflow 기초

한기용

AI 시대가 도래하면서, 데이터 파이프라인 구성은 기업 경쟁력을 좌우하는 핵심 역량으로 자리 잡았습니다. 가장 널리 사용되는 Airflow를 활용해 효율적인 데이터 파이프라인을 구축하는 노하우를, 실전 경험과 풍부한 강의 경력을 지닌 실리콘밸리 전문가(前 유데미 데이터팀 헤드, 現 산호세 주립대 데이터 석사 과정 교수)에게 직접 배워보세요.

초급

airflow, snowflake, SQL

실리콘밸리 데이터 리더가 알려주는 Airflow 기초

한기용

[리뉴얼] 처음하는 MongoDB(몽고DB) 와 NoSQL(빅데이터) 데이터베이스 부트캠프 [입문부터 활용까지] (업데이트)

잔재미코딩 DaveLee

최신 스타트업에서 활용하는 풀스택과 데이터과학 기술의 기본 기술 중 하나인 빅데이터를 다룰 수 있는 NoSQL 기술을 익힙니다. 몽고DB는 NoSQL 중에서도 가장 쉬우면서 빠르게 활용할 수 있는 기술입니다. 본 강의에서는 짧은 시간 안에 몽고DB 기초를 익히고, 파이썬으로 몽고DB를 다루고 활용할 수 있는 기술까지 학습해 봅니다.

초급

Python, MongoDB, DBMS/RDBMS

[리뉴얼] 처음하는 MongoDB(몽고DB) 와 NoSQL(빅데이터) 데이터베이스 부트캠프 [입문부터 활용까지] (업데이트)

잔재미코딩 DaveLee

Airflow 마스터 클래스

김현진

데이터 파이프라인을 효율적으로 만들고 관리하기 위한 Orchestration 도구인 Airflow에 대해 배우는 강의입니다. 초보자도 차근차근 배울 수 있는 Airflow 마스터 클래스, 환영합니다!

초급

airflow, 데이터 엔지니어링, Python

Airflow 마스터 클래스

김현진

[데이터 전처리] 걱정하지마! Pandas가 있으니까.

DataFactory

데이터는 있는데 이걸 어떻게 파이썬에서 읽어 들이고 처리해야 할 지 막막하신가요? 걱정하지 마세요. Pandas의 마법으로 처리할 수 있습니다. Pandas는 가장 강력하고 효율적이며 유용한 데이터 처리 라이브러리입니다. Pandas로 데이터 전처리 Skill-UP! 인사이트 팍팍!

초급

Python, Pandas, 데이터 엔지니어링

[데이터 전처리] 걱정하지마! Pandas가 있으니까.

DataFactory

실리콘밸리 엔지니어와 함께하는 Apache Superset

미쿡엔지니어

Apache Superset은 여러 데이터베이스를 연결해서 차트·대시보드를 뚝딱 만들 수 있는 오픈소스 BI 툴입니다. 코드 몰라도 시각화 가능하고, SQL Lab에서는 직접 쿼리도 날릴 수 있어 초보부터 프로까지 모두 유용합니다. 만든 대시보드는 바로 공유하고 권한 설정까지 할 수 있어 협업에도 완벽합니다. Superset을 배우면 데이터 기반 의사결정을 빠르게 만들고, 회사에서 바로 써먹는 실전 대시보드를 만드는 역량을 갖출 수 있습니다. 한마디로, 데이터를 “말하게” 만들고 싶은 사람에게 딱입니다. 🚀

입문

Python, SQL

실리콘밸리 엔지니어와 함께하는 Apache Superset

미쿡엔지니어

초보자를 위한 데이터베이스

ezdatascience

본 강의에서는 PostgreSQL 조작법에 대해서 배우고, 파이썬과 연동해서 사용하는 방법에 대해서 알아봅니다.

초급

Python, PostgreSQL, SQLAlchemy