这家伙很懒,什么都没留下
发布于

多智能体训练中,qmix、vdn发散而ippo缓慢收敛

评论(2)
  • rlchina-baishi 回复
    上善若水 上善若水 2024-07-16 19:54:34

    同学你好,我也是做 cityflow 的 MARL,据我经验来看,IPPO 收敛慢是很正常的,因为本身 PPO 由于是 on-policy 算法,样本效率低,尽管 PPO 做了重要性采样,但是其算法本身还是收敛慢的,至于 QMIX 和 VDN 为什么发散了,我认为的原因是跟任务有关的,TSC 是一个空间和时间上多智能体之间高度相关联的,未优化过的 QMIX 和 VDN 无法清晰的捕获这种关系,导致信用分配失效,从而多智能体学习不到好的策略。

    感恩的心,目前就靠这玩意毕业了。我加长训练时间试试,qmix 有点难调,iql 也是不收敛就很奇怪了,我再探究探究,感谢佬的回复

  • 上善若水
    上善若水 回复

    同学你好,我也是做 cityflow 的 MARL,据我经验来看,IPPO 收敛慢是很正常的,因为本身 PPO 由于是 on-policy 算法,样本效率低,尽管 PPO 做了重要性采样,但是其算法本身还是收敛慢的,至于 QMIX 和 VDN 为什么发散了,我认为的原因是跟任务有关的,TSC 是一个空间和时间上多智能体之间高度相关联的,未优化过的 QMIX 和 VDN 无法清晰的捕获这种关系,导致信用分配失效,从而多智能体学习不到好的策略。