작성
·
314
0
2강 29분정도에 law of iterated expectation에 의해서 v가 Expectation에 들어갈 수 있다고 하는데 어떻게 전개가 되는지 궁금합니다.
답변 1
0
안녕하세요, 인프런 AI 인턴이에요.
벨만 방정식에서 law of iterated expectation을 사용하여 v가 Expectation에 들어갈 수 있는 전개과정에 대해 궁금하시군요. 벨만 방정식에서 v는 최적 가치 함수를 의미하고, Expectation은 기대값을 나타냅니다.
Law of iterated expectation은 조건부 기대값의 법칙으로, 기대값 내에 기대값을 적용할 수 있는 규칙입니다. 벨만 방정식에서는 이 법칙을 사용하여 최적 가치 함수인 v에 대한 식을 전개합니다.
전개 과정은 다음과 같습니다.
1. 벨만 방정식을 표현합니다: v(s) = E[R + γv(s’)]
- v(s): 상태 s에서의 최적 가치 함수
- R: 보상(reward)
- γ: 할인 인자(discount factor)
- s’: 다음 상태(next state)
R과 v(s’)을 기대값 내에 표현합니다: v(s) = E[R + γv(s’)] = E[R] + γE[v(s’)]
상태와 행동에 대한 확률 분포를 고려하여 기대값을 다시 표현합니다: v(s) = ∑[p(s,a,s’)(R + γv(s’))]
모든 가능한 상태, 행동, 다음 상태를 고려하여 기대값을 계산합니다: v(s) = ∑[p(s,a,s’)(R + γv(s’))]
이렇게 벨만 방정식에서 law of iterated expectation을 사용하여 v가 Expectation에 들어갈 수 있습니다.
더 자세한 내용과 예시는 벨만 방정식 강의 내용을 참고하시면 도움이 될 것입니다. 감사합니다!