发布于2022-11-22 13:46:47
On-Policy Approximation -1 强化学习Sutton第9章部分总结
On-Policy Approximation 均值方差公式: \overline{\mathrm{VE}}(\mathbf{w}) \doteq \sum_{s \in \mathcal{S}} \mu(s)\left[v_\pi(s)-\hat{v}(...赞
1
评论
浏览
585