跟进张老师的《Bi-level Actor-Critic for Multi-agent Coordination》实验结果

支太行 2021-12-10 12:46:08 回复

 杜雅丽 (招博后/博士) 2021-12-10 05:48:31

一般重复跑多次，看各个指标的均值和方差是否收敛。常参考指标有 training reward，test reward, value loss, policy loss, etc. RL 训练有 exploration，曲线波动很常见。另外，可以参考一般论文里如何汇报实验结果，以及如何分析结果的。

十分感谢杜老师的解答！
杜雅丽 (招博后/博士) 2021-12-10 05:48:31 回复

一般重复跑多次，看各个指标的均值和方差是否收敛。常参考指标有 training reward，test reward, value loss, policy loss, etc. RL 训练有 exploration，曲线波动很常见。另外，可以参考一般论文里如何汇报实验结果，以及如何分析结果的。
支太行 2021-12-08 21:52:26 回复

 Justin 2021-12-08 21:50:38

这种波动还是很正常的吧，特别在一些goal-based的任务中

那怎么去判定这个是否是收敛的呀，或者说怎么解读样的结果比较好？求教！
Justin 2021-12-08 21:50:38 回复

这种波动还是很正常的吧，特别在一些goal-based的任务中

跟进张老师的《Bi-level Actor-Critic for Multi-agent Coordination》 实验结果