AINova 研究强化学习，时空众包

发布于 2021-11-05 11:09:12

使用最基础的Policy Gradient训练不收敛，有没有懂的大佬朋友

浏览 (1658) 点赞收藏

评论(1)

vinbo 2021-11-05 14:09:42 回复

最基础的 PG 本来也不是全局收敛

研究强化学习，时空众包

关注了
2
关注者
1
积分
99
注册排名
136