支太行
这家伙很懒,什么都没留下,我不懒0.0
评论(4)
请
登录后发表观点
-
一般重复跑多次,看各个指标的均值和方差是否收敛。 常参考指标有 training reward,test reward, value loss, policy loss, etc. RL 训练有 exploration,曲线波动很常见。另外,可以参考一般论文里如何汇报实验结果,以及如何分析结果的。
十分感谢杜老师的解答!
-
一般重复跑多次,看各个指标的均值和方差是否收敛。 常参考指标有 training reward,test reward, value loss, policy loss, etc. RL 训练有 exploration,曲线波动很常见。另外,可以参考一般论文里如何汇报实验结果,以及如何分析结果的。
- 这种波动还是很正常的吧,特别在一些goal-based的任务中
那怎么去判定这个是否是收敛的呀,或者说怎么解读样的结果比较好?求教!
- 这种波动还是很正常的吧,特别在一些goal-based的任务中