支太行
这家伙很懒,什么都没留下,我不懒0.0
发布于

跟进张老师的《Bi-level Actor-Critic for Multi-agent Coordination》 实验结果

评论(4)
  • 支太行
    支太行 回复
    杜雅丽 (招博后/博士) 杜雅丽 (招博后/博士) 2021-12-10 05:48:31

    一般重复跑多次,看各个指标的均值和方差是否收敛。 常参考指标有 training reward,test reward, value loss, policy loss, etc. RL 训练有 exploration,曲线波动很常见。另外,可以参考一般论文里如何汇报实验结果,以及如何分析结果的。

    十分感谢杜老师的解答!

  • 杜雅丽 (招博后/博士)

    一般重复跑多次,看各个指标的均值和方差是否收敛。 常参考指标有 training reward,test reward, value loss, policy loss, etc. RL 训练有 exploration,曲线波动很常见。另外,可以参考一般论文里如何汇报实验结果,以及如何分析结果的。

  • 支太行
    支太行 回复
    Justin Justin 2021-12-08 21:50:38
    这种波动还是很正常的吧,特别在一些goal-based的任务中

    那怎么去判定这个是否是收敛的呀,或者说怎么解读样的结果比较好?求教!

  • Justin
    Justin 回复
    这种波动还是很正常的吧,特别在一些goal-based的任务中