yaodong
北京大学助理教授
发布于

MARL真的需要centralised training吗?

评论(3)
  • wanghz123 回复

    您好,想请教一下关于 DTDE 范式的一些问题。就是关于分布式多智能体下有一种 networked agents 的场景,智能体通过和其他智能体分享模型来达到一致性。这种方式和近期有人研究的“联邦多智能体强化学习”有什么本质上的区别嘛?

  • yaodong
    yaodong 回复
    张海峰 张海峰 2021-11-30 23:07:32

    我个人的看法是先对 MARL 研究的问题分类,有些问题本质上是个单智能体问题,由于维度比较大,我们尝试拆分维度,并看作多智能体问题解决,这样每个智能体的状态、动作空间维度都会比较小,例如:交通灯控制问题中交警指挥中心是掌握全局路况信息的。这类问题是有条件采用集中式训练的,且应当尽量利用全局信息带来的好处,但应避免简单的共享全局信息,否则就退化成单智体算法了。因此,研究整体和部分的关系是重要的,包括如何拆分整体、拆分之后如何高效共享信息(包括智能体间通信问题)等。

    另一类问题的状态和动作是分布式的,包括自动驾驶、足球智能体等,这类问题的研究目标可能有两种:1、站在整体立场上寻找纳什均衡;2、站在某个或某几个智能体的立场上找到最优策略。目标 1 是一个比较学术的目标,现实中找到纳什均衡一般也不能直接用(因为可能有人不理性,且可能存在多个纳什均衡)。目标 2 的实现依赖于不受控的玩家的策略,绝对的最优策略可能是不存在的。

    主贴提到的分布式算法主要是针对以寻找纳什均衡为目标的分布式问题的,这方面我认为确实可以多探索完全分布式的方案,因为集中式的训练可能导向了某些特殊的均衡,而纯分布式训练导向的均衡可能与现实的结果更为相似,因为现实的策略演化是基于分布式的观测和动作进行的。

    完全同意!

  • 张海峰
    张海峰 回复

    我个人的看法是先对 MARL 研究的问题分类,有些问题本质上是个单智能体问题,由于维度比较大,我们尝试拆分维度,并看作多智能体问题解决,这样每个智能体的状态、动作空间维度都会比较小,例如:交通灯控制问题中交警指挥中心是掌握全局路况信息的。这类问题是有条件采用集中式训练的,且应当尽量利用全局信息带来的好处,但应避免简单的共享全局信息,否则就退化成单智体算法了。因此,研究整体和部分的关系是重要的,包括如何拆分整体、拆分之后如何高效共享信息(包括智能体间通信问题)等。

    另一类问题的状态和动作是分布式的,包括自动驾驶、足球智能体等,这类问题的研究目标可能有两种:1、站在整体立场上寻找纳什均衡;2、站在某个或某几个智能体的立场上找到最优策略。目标 1 是一个比较学术的目标,现实中找到纳什均衡一般也不能直接用(因为可能有人不理性,且可能存在多个纳什均衡)。目标 2 的实现依赖于不受控的玩家的策略,绝对的最优策略可能是不存在的。

    主贴提到的分布式算法主要是针对以寻找纳什均衡为目标的分布式问题的,这方面我认为确实可以多探索完全分布式的方案,因为集中式的训练可能导向了某些特殊的均衡,而纯分布式训练导向的均衡可能与现实的结果更为相似,因为现实的策略演化是基于分布式的观测和动作进行的。