李海

这家伙很懒，什么都没留下

李

李李海这家伙很懒，什么都没留下

发布于2022-05-20 21:15:53

深度强化学习中神经网络的收敛问题？
各位老师和同学好，最近研究遇到一个疑惑，想发帖求助一下社区中的大神。问题：强化学习中更新 Q 网络或者策略网络一般有期望更新和采样更新两种方式，我对于采样更新有一个疑问就是在采样的过程中伴随着随机性，这种随机性将直接导致 Q 值网络或者策略网络不能很好的...

赞

评论

浏览 1597

水区