Mean-field Multi-agent Reinforcemen Learning代码复现问题讨论t

sisi_zhou 2021-11-20 19:17:55 回复
H hanshan 2021-11-20 19:15:40
1. 算法测试阶段应该关闭探索
  2 与 3. mfq 应当是要比 mfac 和 ac 要好的，ac 这类算法在 battle 场景下比较难训练出来（训练过程经常出现在前期无法提升，后期突然跃增的情况）；评估结果差异大应当是评估数量问题，与环境初始化相关性不大，测试轮数应当是越多越精准（文章中写的是 2000 轮的验证实验），另外测试过程需要注意随机交换对手阵营，以及模型的偶然性因素，建议挑选在算法训练表现平稳后的 10 个模型进行交叉对比测试，计算平均指标。
好的，感谢
H

hanshan 2021-11-20 19:15:40 回复
1. 算法测试阶段应该关闭探索
  2 与 3. mfq 应当是要比 mfac 和 ac 要好的，ac 这类算法在 battle 场景下比较难训练出来（训练过程经常出现在前期无法提升，后期突然跃增的情况）；评估结果差异大应当是评估数量问题，与环境初始化相关性不大，测试轮数应当是越多越精准（文章中写的是 2000 轮的验证实验），另外测试过程需要注意随机交换对手阵营，以及模型的偶然性因素，建议挑选在算法训练表现平稳后的 10 个模型进行交叉对比测试，计算平均指标。