sisi_zhou
这家伙很懒,什么都没留下
发布于

Mean-field Multi-agent Reinforcemen Learning代码复现问题讨论t

评论(2)
  • sisi_zhou
    sisi_zhou 回复
    H hanshan 2021-11-20 19:15:40
    1. 算法测试阶段应该关闭探索
      2 与 3. mfq 应当是要比 mfac 和 ac 要好的,ac 这类算法在 battle 场景下比较难训练出来(训练过程经常出现在前期无法提升,后期突然跃增的情况);评估结果差异大应当是评估数量问题,与环境初始化相关性不大,测试轮数应当是越多越精准(文章中写的是 2000 轮的验证实验),另外测试过程需要注意随机交换对手阵营,以及模型的偶然性因素,建议挑选在算法训练表现平稳后的 10 个模型进行交叉对比测试,计算平均指标。

    好的,感谢

  • hanshan 回复
    1. 算法测试阶段应该关闭探索
      2 与 3. mfq 应当是要比 mfac 和 ac 要好的,ac 这类算法在 battle 场景下比较难训练出来(训练过程经常出现在前期无法提升,后期突然跃增的情况);评估结果差异大应当是评估数量问题,与环境初始化相关性不大,测试轮数应当是越多越精准(文章中写的是 2000 轮的验证实验),另外测试过程需要注意随机交换对手阵营,以及模型的偶然性因素,建议挑选在算法训练表现平稳后的 10 个模型进行交叉对比测试,计算平均指标。