작성
·
202
0
안녕하세요, 수업 따라가면서 코드 오류는 없었지만 내용에 질문이 생겨 글 남기게 되었습니다.
드론 agent 스크립트 중 Heuristic()에서 키보드 입력을 주었을 때 OnActionReceived()로 전달되어 드론을 움직이는 것으로 이해했는데, 학습 과정에서는 키보드 입력 없이 드론이 어떤 방법으로 스스로 움직이며 학습을 하는 것인지 궁금합니다.
감사합니다!
답변 1
1
안녕하세요!
말씀하신대로 Heuristic을 사용하는 경우 키보드 입력이 OnActionReceived() 함수로 전달되며 드론을 움직입니다. 학습 과정에서는 강화학습 알고리즘 (파이썬 코드)이 결정한 행동의 값이 OnActionReceived() 함수로 전달되어 에이전트를 움직이게 됩니다. 그 과정에서 OnActionReceived 함수에서 설정한대로 환경이 변하고 새로운 상태, 보상, 게임 종료여부 같은 정보들이 발생합니다. 이 상태, 보상, 게임 종료 여부 정보가 다시 강화학습 알고리즘으로 전달되고 이 정보들을 기반으로 강화학습 알고리즘이 학습하게 됩니다. 이 과정을 반복하다보면 강화학습 알고리즘은 많은 가치를 얻을 수 있는 행동을 선택하도록 학습되는 것입니다.