작성
·
582
1
답변 2
1
안녕하세요! 강의 수강해주셔서 감사합니다! :)
사람의 플레이를 기반으로 정책함수를 사전학습하고 강화학습을 수행하는 방법은 알파고나 알파스타에서 사용한 기법입니다. 이를 기반으로 봤을 때 사람이 먼저 정책의 틀을 잡고 그 상태에서 강화학습 에이전트를 학습을 통해 성능을 강화하는 내용의 학습 방법도 종종 사용되는 것으로 생각됩니다. 본 강의 9장에서 다루는 내용과 머신러닝 에이전트에서 정리한 내용을 살펴봤을때에는 강화학습과 모방학습을 조합하여 학습할 때 더 학습이 빠르게 진행되는 것을 확인할 수 있습니다!
1