RLChina RLChina 是由国内外强化学习学者联合发起的民间学术组织，主要活动包括举办强化学习线上公开课、强化学习线上研讨会等，旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。

发布于 2022-08-09 13:11:51

前沿进展四：Decision Structure in Decentralized Multi-Agent Learning

课程学习

L 陈

浏览 (1322) 点赞 (4) 收藏

上善若水 2022-08-24 20:02:17 回复

 杜雅丽 (招博后/博士) 2022-08-24 19:27:09

这个问题我 QA 的时候有回答，它的主要 motivation 是缓解 independent execution 下局部观测带来的 nonstationarity. 这位同学可否分享下你提到的这个研究？方便了解下这个问题的上下文。

感谢老师的解答~~~非常抱歉老师，我不记得是在哪里看到的这个结论，有可能是我浏览一些博客帖子看到的，可能断章取义的结果，不过我确实在科研中发现，同样的配置下，利用图注意力、图卷积让 agent 和 neighbor 交流信息协作训练模型，确实比 decentralized，利用精心设计 reward 达到隐式协调的模型训练时间要长，这可能是图卷积神经网络本身的后果？不过我觉得多智能体决策，是需要必要的信息通信。我记得哪里好像有说多智能体系统一个角度是在研究多少信息的通信是最好的效果，但是非常抱歉老师，我没有过于关注这项研究，所以记不清是在哪里看到的了，对此十分抱歉，希望您的谅解。
杜雅丽 (招博后/博士) 2022-08-24 19:35:35 回复

 z 2022-08-24 17:01:12

老师您好，请问一下用Bi-AC算法能解决两个智能体高速公路交汇的问题么，如果存在三个智能体甚至更多在高速公路交汇会出现哪些困难？

可以学 action dependency graph, 参考 GCS: Graph-based Coordination Strategy for Multi-Agent Reinforcement Learning
https://arxiv.org/abs/2201.06257
杜雅丽 (招博后/博士) 2022-08-24 19:34:25 回复

 vinbo 2022-08-24 16:47:25

请问 decentrilized frame 下，至少需要加哪些条件才能达到 centralized 的学习性能，比如全局收敛性？

在我们的工作中有讨论到，目前需要对环境 dynamics 做些假设，比如 factorizable or kesi-dependent.
杜雅丽 (招博后/博士) 2022-08-24 19:31:49 回复

陈陈加乐 2022-08-24 16:37:42

分布式多智能体系统，是否会出现类似于分布式系统中节点故障的问题呢？

是个好问题，可以考虑鲁邦通信的问题。但今天介绍的工作中没有考虑。
杜雅丽 (招博后/博士) 2022-08-24 19:30:18 回复

H H. 2022-08-24 16:37:06

老师请问强化学习还有哪些可以提升速度的方法呢

考虑离线强化学习，以及 model-based policy optimization.
杜雅丽 (招博后/博士) 2022-08-24 19:29:45 回复

L Larry 2022-08-24 16:34:04

杜老师您好，竞争型多智能体和您研究的合作型智能体有哪些共通之处，采取分布式训练的方法的话会出现哪些问题呢

主要是奖励结构的不同，比如零和博弈，分布式是可以的，但是这里对手得考虑到环境当中，也就是需要对对手做 best response, 不能仅考虑 maximize reward 了。
杜雅丽 (招博后/博士) 2022-08-24 19:27:09 回复

 上善若水 2022-08-24 16:29:36

老师您好，请问在协作多智能体决策中，看到有些为了训练和执行的速度，智能体之前不去通信，通过精心设计奖励函数和智能体的网络参数共享来实现隐式协调，而一些研究会使用图卷积、图注意力网络来实现智能体之间的通信，但是，相关研究说明：多智能体之间通信的代价可能是远远大于其带来的收益，想请教老师，如何去平衡这样的情况，或者说多智能体之间通信是否必要？怎么能既最大化通信带来的收益，又能尽可能减少通信所带来的代价？

这个问题我 QA 的时候有回答，它的主要 motivation 是缓解 independent execution 下局部观测带来的 nonstationarity. 这位同学可否分享下你提到的这个研究？方便了解下这个问题的上下文。
杜雅丽 (招博后/博士) 2022-08-24 19:24:03 回复

Y yan 2022-08-24 16:20:49

老师，您好，请问强化学习采取分布式训练方式后效率和性能的效果如何呢？

一般 independent learning 方法可以直接用，理论上比较难保证， empirical 效果需要技巧。可以参考 https://arxiv.org/abs/2011.09533
请看我们近期一个工作有些关于 pg https://arxiv.org/abs/2207.06559
杜雅丽 (招博后/博士) 2022-08-24 19:19:58 回复

Y yan 2022-08-24 16:06:38

请问老师，强化学习的鲁棒性怎么样？

一般基于 DNN 的策略度对输入 observation 的噪声是敏感的，这点是和之前 CNN 里面对抗攻击相同的问题。
如果是说不同任务的泛化性，现在也有很多相关研究，比如 meta RL.
闫雪 2022-08-24 17:42:24 回复

 vinbo 2022-08-24 16:50:02

请问从拓扑角度看，一个拓扑结构如果想到达和全连接一样的收敛性能，至少需要什么样的拓扑，这个有理论分析结果吗？谢谢

@vinbo 感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
闫雪 2022-08-24 17:42:08 回复

 上善若水 2022-08-24 16:53:35

（抱歉之前的打错字了）老师您好，请问在协作多智能体决策中，看到有些为了训练和执行的速度，智能体之间不去通信，通过精心设计奖励函数和智能体的网络参数共享机制，来实现隐式协调，而一些研究会使用图卷积、图注意力网络来实现智能体之间的通信，但是，相关研究表明：多智能体之间通信的代价可能是远远大于其带来的收益的，想请教老师，如何去平衡这样的情况，或者说多智能体之间通信是否必要？怎么能既最大化通信带来的收益，又能尽可能减少通信所带来的代价？

@上善若水感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
闫雪 2022-08-24 17:41:51 回复

H hm 2022-08-24 17:15:57

老师您好，想问您下，在 correlated communication topology 中，P（A|s;\theta）如果是一个离散分布，那需要准确估计的数据量很大，是怎么确保这个分布的准确性的呢，还有如果前期估计不准确的话，会对 policy 的影响很大么，还是有用连续分布拟合？整体上感觉是个方差很大的算法，想请教下您是怎么解决这个问题的呢？谢谢您！

@hm 感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
H

hm 2022-08-24 17:15:57 回复

老师您好，想问您下，在 correlated communication topology 中，P（A|s;\theta）如果是一个离散分布，那需要准确估计的数据量很大，是怎么确保这个分布的准确性的呢，还有如果前期估计不准确的话，会对 policy 的影响很大么，还是有用连续分布拟合？整体上感觉是个方差很大的算法，想请教下您是怎么解决这个问题的呢？谢谢您！
z 2022-08-24 17:01:12 回复

老师您好，请问一下用Bi-AC算法能解决两个智能体高速公路交汇的问题么，如果存在三个智能体甚至更多在高速公路交汇会出现哪些困难？
上善若水 2022-08-24 16:53:35 回复

（抱歉之前的打错字了）老师您好，请问在协作多智能体决策中，看到有些为了训练和执行的速度，智能体之间不去通信，通过精心设计奖励函数和智能体的网络参数共享机制，来实现隐式协调，而一些研究会使用图卷积、图注意力网络来实现智能体之间的通信，但是，相关研究表明：多智能体之间通信的代价可能是远远大于其带来的收益的，想请教老师，如何去平衡这样的情况，或者说多智能体之间通信是否必要？怎么能既最大化通信带来的收益，又能尽可能减少通信所带来的代价？
vinbo 2022-08-24 16:50:02 回复

请问从拓扑角度看，一个拓扑结构如果想到达和全连接一样的收敛性能，至少需要什么样的拓扑，这个有理论分析结果吗？谢谢
vinbo 2022-08-24 16:47:25 回复

请问 decentrilized frame 下，至少需要加哪些条件才能达到 centralized 的学习性能，比如全局收敛性？
陈

陈加乐 2022-08-24 16:37:42 回复

分布式多智能体系统，是否会出现类似于分布式系统中节点故障的问题呢？
H

H. 2022-08-24 16:37:06 回复

老师请问强化学习还有哪些可以提升速度的方法呢
L

Larry 2022-08-24 16:34:04 回复

杜老师您好，竞争型多智能体和您研究的合作型智能体有哪些共通之处，采取分布式训练的方法的话会出现哪些问题呢
上善若水 2022-08-24 16:29:36 回复

老师您好，请问在协作多智能体决策中，看到有些为了训练和执行的速度，智能体之前不去通信，通过精心设计奖励函数和智能体的网络参数共享来实现隐式协调，而一些研究会使用图卷积、图注意力网络来实现智能体之间的通信，但是，相关研究说明：多智能体之间通信的代价可能是远远大于其带来的收益，想请教老师，如何去平衡这样的情况，或者说多智能体之间通信是否必要？怎么能既最大化通信带来的收益，又能尽可能减少通信所带来的代价？
Y

yan 2022-08-24 16:20:49 回复

老师，您好，请问强化学习采取分布式训练方式后效率和性能的效果如何呢？
Y

yan 2022-08-24 16:06:38 回复

请问老师，强化学习的鲁棒性怎么样？