딥러닝 · 머신러닝

강화학습 기초 이론

강화학습의 이론, 기초 개념을 탄탄히 다지고 싶은 분, 딥러닝이 강화학습에 어떻게 적용 되는지 배우고 싶으신 분께 도움이 됩니다.

(5.0) 수강평 22개

수강생 2,577명

팡요랩

강화학습

중급자를 위해 준비한
[데이터 분석] 강의입니다.

이런 걸 배울 수 있어요

강화학습 논문 읽기

강화학습 기초 이론

Policy, Reward, MDP, Monte-Carlo, Temporal Difference 등... 강화학습 관련 논문이나 프로젝트에서 흔히 접하게 되는 개념이지만, 각 용어의 정확한 정의를 가장 기초부터 차근차근 설명해주는 강의 자료는 많지 않은 것 같습니다. 이를 단단하게 이해하지 못하고 논문이나 프로젝트에 뛰어 들면 방향키를 잃은 배 처럼 갈 곳을 잃은 채 망망대해를 떠돌게 될 것 입니다.

그 기초를 풍부한 설명과 직관적 이해를 겸비하여 가장 잘 설명해주는 자료가 딥마인드의 D.Silver 교수님의 유튜브 강의라고 생각합니다. 하지만 해당 강의는 영어로 진행되고, 초심자가 듣기에 다소 어려운 면이 있어서, 본 강의는 같은 내용을 보다 알기 쉽게 우리말로 풀어서 재전달하는 것을 목적으로 하는 강의입니다. D.Silver의 강의가 10강으로 구성된 것 처럼 저희의 강의 또한 10강으로 이루어질 예정입니다.

도움이 되는 분들

강화학습의 이론, 기초 개념을 탄탄히 다지고 싶은 분
딥러닝이 강화학습에 어떻게 적용 되는지 배우고 싶으신 분

알파고 논문 리뷰

강화학습을 배우면 어떤 일을 할 수 있는 지 궁금하신 분들은 저희 팡요랩의 알파고 논문 리뷰 영상을 먼저 봐주세요.
알파고 논문 리뷰: https://www.youtube.com/watch?v=SRVx2DFu_tY&list=PLpRS2w0xWHTfnWmr95LtIu4v4HbVxqTlM
알파고 제로 논문 리뷰: https://youtu.be/CgOGKChwWrw

강화 학습이란?

기계학습 (Machine Learning) 분야 중의 하나인 강화학습(Reinforcement Learning)
머신러닝은 크게 지도학습,비지도학습, 강화학습 분야로 나눌 수 있다. 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다.

참고 자료

강의 슬라이드 http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
David Silver 직강 https://www.youtube.com/watch?v=2pWv7GOvuf0&list=PL7-jPKtc4r78-wCZcQn5IqyuWhBZ8fOxT
알파고 논문 리뷰 https://www.youtube.com/watch?v=SRVx2DFu_tY&list=PLpRS2w0xWHTfnWmr95LtIu4v4HbVxqTlM
알파고 제로 논문 리뷰 https://youtu.be/CgOGKChwWrw

지식공유자 소개

노승은
서울대학교 - 컴퓨터공학, 경제학 전공 (2010-2015)
서울대학교 융합과학기술대학원 - 딥러닝의 하이퍼파라미터 최적화 관련 연구 (2015-2017)
엔씨소프트 AI Research - 강화학습팀 인공지능 연구원 (2017-)

전민영
서울대학교 - 컴퓨터공학, 시각디자인 전공 (2011-2017)
게임베리 - 개발자 (2014)
링글 - 개발자 (2015)
매드업 - 개발자 (2016-2017)
네이버 - Papago팀 프론트엔드 개발 (2018-)

이런 분들께
추천드려요!

학습 대상은
누구일까요?

강화학습을 처음 접하는 사람

선수 지식,
필요할까요?

미분

안녕하세요
팡요랩입니다.

2,577

명

수강생

개

수강평

5.0

점

강의 평점

개

강의

커리큘럼

전체

10개 ∙ (13시간 2분)

섹션 1. 강화학습의 기초 이론

10개 ∙ (13시간 2분)

1. 강화학습 introduction
01:20:23
2. Markov Decision Process
01:15:36
3. Planning by Dynamic Programming
01:19:49
4. Model Free Prediction
01:16:37
5. Model Free Control
01:06:22
6. Value Function Approximation
01:19:54
7. Policy Gradient
01:33:38
8. Integrating Learning and Planning
01:21:49
9. Exploration and Exploitation
01:13:10
10. Classic Games
01:15:22

강의 게시일: 2018. 09. 18.

마지막 업데이트일: 2018. 11. 26.

수강평

전체

22개

5.0

22개의 수강평

KYUNG TAE BAE
수강평 231
∙
평균 평점 5.0
2024. 12. 20.
5
30% 수강 후 작성
강화 학습에 대해 궁금한 점이 많았는데.. 많이 배워갑니다! 좋은 강의 감사해요~^^
공준호
수강평 2
∙
평균 평점 5.0
2025. 05. 06.
5
60% 수강 후 작성
쿠카이든
수강평 358
∙
평균 평점 5.0
2024. 12. 23.
5
40% 수강 후 작성
강화학습에 대해서 많은 것을 배웠습니다. 좋은 강의 감사드립니다~^^
이상
수강평 4
∙
평균 평점 4.8
2024. 08. 07.
5
100% 수강 후 작성
Sang Lee
수강평 1
∙
평균 평점 5.0
2023. 04. 05.
5
100% 수강 후 작성
저처럼 강화학습 입문자에게 특히 큰 도움이 되는 강의입니다. 좋은 강의를 이렇게 공유해주셔서 감사합니다.