seclee
追求卓越,志存高远
发布于

请教

评论(2)
  • seclee
    seclee 回复
    Willing Star Willing Star 2023-07-11 19:22:19

    马尔可夫性是对状态-动作序列的性质,奖励 R_t 只要是(s_t,a_t)的函数就可以了,比如 R 给在终端状态就 s_T 就是一种延迟奖励,这依然满足马尔可夫性。你说的“延迟奖励环境”是 R_t=r(s_{t-n},a_{t-n})吗?如果 n 是定值,trivially 可以用状态增广解决;你可以针对你的问题详细推一下,看看有没有更特殊的结构。

    好的 感谢回复,我的问题是经过一定时间才能采样到奖励,所以应该是可以转化成 n 为定值的情况的。

  • Willing Star
    Willing Star 回复

    马尔可夫性是对状态-动作序列的性质,奖励 R_t 只要是(s_t,a_t)的函数就可以了,比如 R 给在终端状态就 s_T 就是一种延迟奖励,这依然满足马尔可夫性。你说的“延迟奖励环境”是 R_t=r(s_{t-n},a_{t-n})吗?如果 n 是定值,trivially 可以用状态增广解决;你可以针对你的问题详细推一下,看看有没有更特殊的结构。