无法解出的问题 钝学累功,不妨精熟。 发布于 2021-10-12 17:55:30 我们从回放池中采样得到数据来训练,但是这些数据可能并不是来自于同一个策略 ,为什么也可以用来训练?这种异策学习对训练有什么影响? 水区 浏览 (812) 点赞 收藏 评论(1) 请 登录后发表观点 YanSong 2021-10-13 10:47:14 回复 因为目的都是 update Q,on-policy 是根据当前 policy (或者当前 Q,比如 SARSA)指向的 next Q 来更新 Q function,off-policy 是根据其他 policy(或者 Q,比如 Q-learning)来更新 Q function。 异策的一个好处是能够 decorrelate state and policy, 防止模型局限于某一行为模式。 到底啦