wawa33
这家伙很懒,什么都没留下
发布于

关于MADDPG在cooperative navigation 下的收敛问题

评论(2)
  • wawa33
    wawa33 回复
    chenvy chenvy 2021-10-24 13:55:31
    看你描述应该是探索问题,没探索到其他的状态应该在actor上想办法。问题一6个agent也不算多。问题二是的,每个agent对回报的贡献是不一样的。问题三,sparse reward更难学。 因为算法的目标是优化累积回报,你方法里的回报定义,累积和加起来是否跟游戏目标一致呢?

    感谢指点!
    探索的问题不知道存不存在 因为我之前在训练时加了 demo buffer 其他 optimal 时的状态应该有被 visit 到。
    sparse reward 的话 reward 就不是用距离了 而是用的是被 cover 到的 landmark 的数量,可能还会用到 HER, 具体我还得再试试

  • chenvy
    chenvy 回复
    看你描述应该是探索问题,没探索到其他的状态应该在actor上想办法。问题一6个agent也不算多。问题二是的,每个agent对回报的贡献是不一样的。问题三,sparse reward更难学。 因为算法的目标是优化累积回报,你方法里的回报定义,累积和加起来是否跟游戏目标一致呢?