无法解出的问题
钝学累功,不妨精熟。
发布于

我们从回放池中采样得到数据来训练,但是这些数据可能并不是来自于同一个策略 ,为什么也可以用来训练?这种异策学习对训练有什么影响?

评论(1)
  • YanSong
    YanSong 回复

    因为目的都是 update Q,on-policy 是根据当前 policy (或者当前 Q,比如 SARSA)指向的 next Q 来更新 Q function,off-policy 是根据其他 policy(或者 Q,比如 Q-learning)来更新 Q function。

    异策的一个好处是能够 decorrelate state and policy, 防止模型局限于某一行为模式。