sisi_zhou
这家伙很懒,什么都没留下
评论(2)
请
登录后发表观点
-
- 算法测试阶段应该关闭探索
2 与 3. mfq 应当是要比 mfac 和 ac 要好的,ac 这类算法在 battle 场景下比较难训练出来(训练过程经常出现在前期无法提升,后期突然跃增的情况);评估结果差异大应当是评估数量问题,与环境初始化相关性不大,测试轮数应当是越多越精准(文章中写的是 2000 轮的验证实验),另外测试过程需要注意随机交换对手阵营,以及模型的偶然性因素,建议挑选在算法训练表现平稳后的 10 个模型进行交叉对比测试,计算平均指标。
- 算法测试阶段应该关闭探索