질문 & 답변 - 인프런 | 커뮤니티

질문 게시판

고민있어요

스터디

팀 프로젝트

멘토링 후기

수강평

With us

인프런 피드

블로그

인프런 소개

공지사항

랠릿

대시보드

강의

로드맵

멘토링

더보기

묻고 답해요

152만명의 커뮤니티!! 함께 토론해봐요.

인프런 TOP Writers

순위 정보를
불러오고 있어요

미해결
프로그래머를 위한 강화학습(저자 직강)

2.7 TD 상태가치함수

2.7 TD와 SARSA를 공부하던 중 이해가 가지 않는 부분이 있어 질문 드렸습니다!상태가치함수 V(t)는 반환값에 대한 기댓값이고 다이내믹 프로그래밍은 model-based이기 때문에 전체 상태와 가치를 다 안다는 전제하에 V(t)를 구할 수 있습니다. MC에서는 에피소드를 여러번 반복해서 실행하고 누적된 반환값을 에피소드 횟수로 나누어서 V(t)를 구합니다.그런데 여기에서 이해가 안되는 것이 TD에서 V(t+1)을 구하는 방법입니다. 다이내믹 프로그래밍과 같이 model-based인 것도 아니고 MC처럼 에피소드가 끝날때까지 계속 구하는 것도 아닌데 어떻게 상태 가치 함수를 구할 수 있는 건가요? 상태가치함수는 반환값에 대한 기댓값이라고 이해했는데, 반환값은 에피소드가 끝날때까지 실행해야 알 수 있는 것 아닌가요?질문 봐주셔서 감사합니다!

정윤상 · 2023.08.14 · 프로그래머를 위한 강화학습(저자 직강)

투표점수

1

조회수

230

답변

1

인기 태그

주간 인기글

순위 정보를
불러오고 있어요