无法解出的问题钝学累功，不妨精熟。

发布于 2021-10-12 17:55:30

我们从回放池中采样得到数据来训练，但是这些数据可能并不是来自于同一个策略，为什么也可以用来训练？这种异策学习对训练有什么影响？

浏览 (1059) 点赞收藏

评论(1)

YanSong 2021-10-13 10:47:14 回复

因为目的都是 update Q，on-policy 是根据当前 policy (或者当前 Q，比如 SARSA)指向的 next Q 来更新 Q function，off-policy 是根据其他 policy(或者 Q，比如 Q-learning)来更新 Q function。

异策的一个好处是能够 decorrelate state and policy, 防止模型局限于某一行为模式。

无法解出的问题

钝学累功，不妨精熟。

关注了
1
关注者
0
积分
24
注册排名
175