研究强化学习,时空众包
发布于

使用最基础的Policy Gradient训练不收敛,有没有懂的大佬朋友


![ ](https://rlchian-bbs.oss-cn-beijing.aliyuncs.com/images/2021/11/05/9e5d7085b6835a87536577f9f1f41072.jfif)

评论(1)
  • vinbo 回复

    最基础的 PG 本来也不是全局收敛