TD时序差分算法的off-policy version的疑问

Willing Star 2024-10-09 17:24:39 回复

RL 涉及收敛性一般不考虑探索问题。如果 behavior policy 可以遍历整个状态-动作空间（这个假设不合理，即使是 tabular case），他提供的信息是可以把 q 学好，迭代求解贝尔曼最优方程的收敛性是最优贝尔曼算子的压缩性决定的（就是这里 Q-learning 的收敛性）。另外策略迭代的收敛性是策略提升定理决定的，策略梯度法收敛性是整个优化问题的收敛性。这里理论收敛性和 on 还是 off polichy 没关系。

如果考虑到探索问题，即 behavior policy 不能遍历整个状态-动作空间，这就比较玄学了。如果只是 on-policy 不用 epsilon greedy，大概率不能遍历全空间，一般就学不出来。其实这是 behavior policy 遍历状态-动作空间的程度（探索）和 behavior policy 和 target policy 的接近程度（利用）的权衡。
C

Chief 2024-10-08 10:40:17 回复

通常在实现 off-policy 时，会采用基于 Q 函数的 epsilon greedy 策略作为行为策略。也是 DQN 中的做法。在您给的 PPT 中，并未明确指明采用什么样的策略作为行为策略。我认为这是对 Q 函数的学习有影响的。例如：采用纯随机的行为策略，可能无法有效抑制 Over-Estimation。