发布于2021-10-09 16:39:50
求问面试题: MC和TD分别是无偏估计吗,为什么?MC、TD谁的方差大,为什么?
感谢回复,总结翻译 + 个人理解如下: MC 使用真实 return(Gt)估计 TD 使用贝尔曼方程进行自举来估计 真实值为期望 return(Gt) MC 中使用的估计值是源于真实回报的采样,与真实值具有相同的期望,因此 MC 是无偏估计;TD 方...赞
2
评论
4
浏览
1534