RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
vivian

vivian

这家伙很懒,什么都没留下

个人成就
  • 积分
    2
  • 帖子
    1
  • 评论
    1
  • 注册排名
    31
  • 关注了
    0
  • 关注者
    0
  • 帖子
  • 文章
  • vivian
    vivian vivian 这家伙很懒,什么都没留下
    发布于2021-10-09 16:39:50

    求问面试题: MC和TD分别是无偏估计吗,为什么?MC、TD谁的方差大,为什么?

    感谢回复,总结翻译 + 个人理解如下: MC 使用真实 return(Gt)估计 TD 使用贝尔曼方程进行自举来估计 真实值为期望 return(Gt) MC 中使用的估计值是源于真实回报的采样,与真实值具有相同的期望,因此 MC 是无偏估计;TD 方...
    赞 2
    评论 4
    浏览 1793
    课程学习
关于 标签 友链