rlchina-baishi
这家伙很懒,什么都没留下
评论(2)
请
登录后发表观点
-
同学你好,我也是做 cityflow 的 MARL,据我经验来看,IPPO 收敛慢是很正常的,因为本身 PPO 由于是 on-policy 算法,样本效率低,尽管 PPO 做了重要性采样,但是其算法本身还是收敛慢的,至于 QMIX 和 VDN 为什么发散了,我认为的原因是跟任务有关的,TSC 是一个空间和时间上多智能体之间高度相关联的,未优化过的 QMIX 和 VDN 无法清晰的捕获这种关系,导致信用分配失效,从而多智能体学习不到好的策略。
感恩的心,目前就靠这玩意毕业了。我加长训练时间试试,qmix 有点难调,iql 也是不收敛就很奇怪了,我再探究探究,感谢佬的回复
-
同学你好,我也是做 cityflow 的 MARL,据我经验来看,IPPO 收敛慢是很正常的,因为本身 PPO 由于是 on-policy 算法,样本效率低,尽管 PPO 做了重要性采样,但是其算法本身还是收敛慢的,至于 QMIX 和 VDN 为什么发散了,我认为的原因是跟任务有关的,TSC 是一个空间和时间上多智能体之间高度相关联的,未优化过的 QMIX 和 VDN 无法清晰的捕获这种关系,导致信用分配失效,从而多智能体学习不到好的策略。