发布于2021-10-12 17:55:30
我们从回放池中采样得到数据来训练,但是这些数据可能并不是来自于同一个策略 ,为什么也可以用来训练?这种异策学习对训练有什么影响?
学习 RL 不久,对于 Experience Replay 中的异策数据这点有疑问(如题所示),网上也没有找到比较满意的解释,论文也比较少,而且大多数都关注于回放池的容量对学习的影响。 Fedus, William, et al. "Revisiting...赞
评论
1
浏览
812