인프런 커뮤니티 질문&답변

멋진님의 프로필 이미지
멋진

작성한 질문수

유니티 머신러닝 에이전트 완전정복 (기초편)

모방학습과 강화학습의 조합?

작성

·

582

1

안녕하세요
강의를 잘 듣고 열심히 공부중입니다.
강화학습 모방학습을 합치는 방법이 있을까요?
DQfD라는 논문이 있던데
아직 수식을 정확히 이해를 못해서..ㅠㅠ
에이전트가 쌓은 에피소드 데이터들 말고
사람(전문가)가 직접 플레이한 데이터를 이용하여 정책함수를 학습시키고나서 (사전 학습)
강화학습을 하면 더 빨리 학습할 수 있을까요?

답변 2

1

민규식님의 프로필 이미지
민규식
지식공유자

안녕하세요! 강의 수강해주셔서 감사합니다! :) 

사람의 플레이를 기반으로 정책함수를 사전학습하고 강화학습을 수행하는 방법은 알파고나 알파스타에서 사용한 기법입니다. 이를 기반으로 봤을 때 사람이 먼저 정책의 틀을 잡고 그 상태에서 강화학습 에이전트를 학습을 통해 성능을 강화하는 내용의 학습 방법도 종종 사용되는 것으로 생각됩니다. 본 강의 9장에서 다루는 내용과 머신러닝 에이전트에서 정리한 내용을 살펴봤을때에는 강화학습과 모방학습을 조합하여 학습할 때 더 학습이 빠르게 진행되는 것을 확인할 수 있습니다! 

1

김영록님의 프로필 이미지
김영록
지식공유자

넵! 실제로 본 강의 섹션 9 - Behavioral Cloning 를 참조하시면 말씀하신 부분에 대한 내용을 다루게 됩니다.

멋진님의 프로필 이미지
멋진

작성한 질문수

질문하기