多智能体训练中，qmix、vdn发散而ippo缓慢收敛

水区

浏览 (857) 点赞收藏

R

rlchina-baishi 2024-11-29 14:33:50 回复

破案，iql 顶天了而 qmix 不收敛的原因是探索参数搞大了，一直在随机探索，没在搞学习
R

rlchina-baishi 2024-07-17 16:47:04 回复

 上善若水 2024-07-16 19:54:34

同学你好，我也是做 cityflow 的 MARL，据我经验来看，IPPO 收敛慢是很正常的，因为本身 PPO 由于是 on-policy 算法，样本效率低，尽管 PPO 做了重要性采样，但是其算法本身还是收敛慢的，至于 QMIX 和 VDN 为什么发散了，我认为的原因是跟任务有关的，TSC 是一个空间和时间上多智能体之间高度相关联的，未优化过的 QMIX 和 VDN 无法清晰的捕获这种关系，导致信用分配失效，从而多智能体学习不到好的策略。

感恩的心，目前就靠这玩意毕业了。我加长训练时间试试，qmix 有点难调，iql 也是不收敛就很奇怪了，我再探究探究，感谢佬的回复
上善若水 2024-07-16 19:54:34 回复

同学你好，我也是做 cityflow 的 MARL，据我经验来看，IPPO 收敛慢是很正常的，因为本身 PPO 由于是 on-policy 算法，样本效率低，尽管 PPO 做了重要性采样，但是其算法本身还是收敛慢的，至于 QMIX 和 VDN 为什么发散了，我认为的原因是跟任务有关的，TSC 是一个空间和时间上多智能体之间高度相关联的，未优化过的 QMIX 和 VDN 无法清晰的捕获这种关系，导致信用分配失效，从而多智能体学习不到好的策略。