Yuding
这家伙很懒,什么都没留下
评论(15)
请
登录后发表观点
-
我也没有试过这种方法,感觉不好控制阈值
我在 matlab 的强化学习框架做,我看到是默认需要设置梯度上限阈值的
-
做过梯度截断 ~ 还是出现了陡降的情况
-
这种情况是不可控的吗,算法里面有经验池,感觉按理论来也不会这么离谱
我理解是不可控的,只可能优化算法尽可能减小这种情况带来的训练影响
-
不确定能不能复现,以前在 gym 里跑 ddpg 也出现过一次,这次的环境也只出现了一次,当时出现剧烈下降的时候,我就没有跑完了,所以也不知道后续会怎么变化,我也觉得可能陷入到一个较差的境地
我采用 REINCFORCE 训练的时候也出现过类似的情况,出现剧烈下降后,坚持训练一段时间,又会恢复到之前的水平~可以打印梯度向量范数看一看,在突然变差时,梯度有没有突然增加。
-
这种情况是不可控的吗,算法里面有经验池,感觉按理论来也不会这么离谱
-
使用的算法是 PPO 算法,用的 sb3 直接调用,学习率:6e-4 网络中间的隐藏层 88 和 16*16 环境用的 jsbsim
该问题是可以复现的吗?例如,可以试一试改变初始化模型的种子,是否还有这种情况。估计多半情况下是不可复现的,猜测是参数在某一轮迭代中被更新到了 “很差” 的区域。
-
8x8 16x16
两个网络的隐藏层都是 8 输入 16 输出
-
使用的算法是 PPO 算法,用的 sb3 直接调用,学习率:6e-4 网络中间的隐藏层 88 和 16*16 环境用的 jsbsim
8x8 16x16
-
可以贴一下使用的算法,模型,超参数~