정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제

강화학습 입문에서 Deep Q-learning/Policy Gradient까지

해결된 질문

24.07.19 14:34 작성

선생님

#3. 정책 개선
#policy_stable <- true
policy_stable = True
old_pi = pi
#각 s에 대해:
for s in range(num_states):
    # pi_s <- argmax_a(sum(p(s',r|s,a)*[r + gamma*V(s')]))
    new_action_values = np.zeros(num_actions)
    for a in range(num_actions):
        for prob, s_, r, _ in transitions[s][a]:
            new_action_values[a] += prob * (r + GAMMA * V[s_])

    new_action = np.argmax(new_action_values)
    pi[s] = np.eye(num_actions)[new_action]

if old_pi.all() != pi.all():
    policy_stable = False

여기 최적 정책을 업데이트 하는 과정을 디버깅 하는 과정에서