专题报告一：多智能体强化学习 | RLChina 强化学习社区

好的 2022-08-23 10:44:13 回复

请问多智能体强化学习有录播课吗？错过了直播

米祈睿 2022-08-22 11:08:17 回复

C CASIA_XL 2022-08-21 16:42:10

老师好，如果要研究人与智能体的合作，这和多智能体之间的合作区别大吗？区别在哪？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

米祈睿 2022-08-22 11:08:02 回复

上善若水 2022-08-22 09:26:19

张老师您好，想问下 transformer 这样强大的序列模型是否可以比较好的应用解决 MARL 问题呢？还有，就是不太能理解空间维度是怎么来的 n 次方，导致维度灾难的？老师可否举个具体例子？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

米祈睿 2022-08-22 11:07:38 回复

北风与歌 2022-08-22 08:46:00

张老师您好，请问对于 MARL 的研究中主要追求 nash 均衡还是帕累托最优呢？如果目标是帕累托最优的话，有什么推荐的算法吗？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

米祈睿 2022-08-22 11:07:30 回复

东东一月 2022-08-22 09:24:17

如果一个问题可以使用单智能体的 RL，那么多智能体的 RL 对比单智能体的 RL 有什么优势？还是说能用单智能体 RL 就用单智能体 RL？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

米祈睿 2022-08-22 11:07:11 回复

马里奥 2022-08-22 09:47:05

张老师您好，1，CTDE 学习范式下假设可以拿到 global state 和 full opponent action，这种假设是否过强？如果在训练的时候也拿不到这些信息应该怎么进行算法设计，此外，最近的 HAPPO 和 HATRPO 方法采用序列决策，后者智能体可以拿到前者智能体动作等假设，这两种不同的学习范式哪一种假设更加合理呢？
2，基于值分解的 MARL，采用 GRU 之后的部分可观测问题相对于完全可观测条件对多智能体算法还有多大的影响，部分可观测影响了到了什么？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

凉皮必须麻酱 2022-08-22 10:57:05 回复

时时比业 2022-08-22 10:52:05

请问，多智能体，可以转化成单智能体来解决问题，是不是，DDPG 也可应用于多智能体来？

ddpg是可以用到多智能体的

dadada 2022-08-22 10:52:25 回复

云云荒之火 2022-08-22 10:46:09

张老师，您如何利用多智能体学习解决组合优化类的问题？

同问

时

时比业 2022-08-22 10:52:05 回复

请问，多智能体，可以转化成单智能体来解决问题，是不是，DDPG 也可应用于多智能体来？

dadada 2022-08-22 10:52:02 回复

上善若水 2022-08-22 09:26:19

张老师您好，想问下 transformer 这样强大的序列模型是否可以比较好的应用解决 MARL 问题呢？还有，就是不太能理解空间维度是怎么来的 n 次方，导致维度灾难的？老师可否举个具体例子？

同问

dadada 2022-08-22 10:49:39 回复

张老师，您有多智能体强化学习在解决资源调度方面的比较推荐的方法吗？

云

云荒之火 2022-08-22 10:46:09 回复

张老师，您如何利用多智能体学习解决组合优化类的问题？

binyu19 2022-08-22 10:45:50 回复

请问多智能体强化学习可以应用于车辆编队的换道决策研究吗？

天人合一 2022-08-22 10:44:12 回复

张老师，您对基于多智能体学习的通信怎么看？如 Learning to Communicate with Deep Multi-Agent Reinforcement Learning

伯

伯虎点金刚 2022-08-22 10:43:26 回复

老师您好！QMIX 算法中，根据 TD 算法求梯度更新参数，这里更新的参数是超参数网络中的参数，还是各个 agent 的网络参数，还是它们都利用反向传播更新参数？

X

xyhk96 2022-08-22 10:42:38 回复

张老师您好，现有的多智能体强化学习大多采用集中式训练和分布式执行的架构，能否考虑分布式训练和分布性执行的架构，例如和联邦学习相结合，分布式训练如何学习集中式 Q 函数来缓解环境不平稳问题呢

马里奥 2022-08-22 09:47:05 回复

张老师您好，1，CTDE 学习范式下假设可以拿到 global state 和 full opponent action，这种假设是否过强？如果在训练的时候也拿不到这些信息应该怎么进行算法设计，此外，最近的 HAPPO 和 HATRPO 方法采用序列决策，后者智能体可以拿到前者智能体动作等假设，这两种不同的学习范式哪一种假设更加合理呢？
2，基于值分解的 MARL，采用 GRU 之后的部分可观测问题相对于完全可观测条件对多智能体算法还有多大的影响，部分可观测影响了到了什么？