各位大佬们，我想知道，在多智能体强化学习中，如果智能体之间的动作存在一定的约束，多智能体强化学习还能够实现吗，比如，假设有智能体1,2,3,4，他们的动作满足a1+a2+a3+a4=100，这种是不是无法通过分布式多智能体来实现，必须采用一个集中式控制器来保证约束吗？

xyhk96 这家伙很懒，什么都没留下

发布于 2021-12-08 10:02:21

课程学习 ##多智能体强化学习#

浏览 (1376) 点赞收藏

入门炼丹师 2021-12-15 10:37:56 回复

为什么不输出一个分配概率呢做softmax概率和为1 这样就可以保证和为100了
X

xyhk96 2021-12-11 09:56:49 回复

 支太行 2021-12-10 12:54:48

是否可以考虑给每一个agent设限制，比如训练后平均收益每个不超过25，或这个每个agent的收益给出一个分布，高收益概率尽可能小一些等，不过这样可能会出现总体收益不足100 或者有异常值超出100.我也不是很懂，哈哈哈。总觉得要有总体约束又要考虑分布训练，不太好弄。

是的，很困难
支太行 2021-12-10 12:54:48 回复

是否可以考虑给每一个agent设限制，比如训练后平均收益每个不超过25，或这个每个agent的收益给出一个分布，高收益概率尽可能小一些等，不过这样可能会出现总体收益不足100 或者有异常值超出100.我也不是很懂，哈哈哈。总觉得要有总体约束又要考虑分布训练，不太好弄。
X

xyhk96 2021-12-09 17:18:29 回复

 Justin 2021-12-09 15:49:02

可是这个系统本身就是个自由度为3的系统，为什么要引入这么一个约束强加第四个变量

因为我的研究问题是资源分配问题，相当于为每个智能体做出资源分配决策，所有为每个智能体所分配的资源之和应该等于总资源量，但我又采用分布式算法来做出决策，所以感觉分布式算法无法保证一个集中式约束，感觉很困惑
Justin 2021-12-09 15:49:02 回复

X xyhk96 2021-12-09 15:42:29

但是这样做动作的话，每个智能体在做出自身的动作之前，岂不是要预先知道其他智能体的动作，我是需要采用纯分布式来做出决策，每个智能体仅根据自身的观察来做出决策，感觉还是想不通如何采用分布式方法来控制一个集中式的约束

可是这个系统本身就是个自由度为3的系统，为什么要引入这么一个约束强加第四个变量
X

xyhk96 2021-12-09 15:42:29 回复

 Justin 2021-12-08 23:23:10

只需要学习控制前三个智能体的动作，第四个智能体的动作由约束给出

但是这样做动作的话，每个智能体在做出自身的动作之前，岂不是要预先知道其他智能体的动作，我是需要采用纯分布式来做出决策，每个智能体仅根据自身的观察来做出决策，感觉还是想不通如何采用分布式方法来控制一个集中式的约束
Justin 2021-12-08 23:23:10 回复

X xyhk96 2021-12-08 22:55:51

不太明白，可以具体阐述下吗

只需要学习控制前三个智能体的动作，第四个智能体的动作由约束给出
X

xyhk96 2021-12-08 22:55:51 回复

 Justin 2021-12-08 21:53:12

可以转化成一个3-agent的问题，把约束去掉

不太明白，可以具体阐述下吗
Justin 2021-12-08 21:53:12 回复

可以转化成一个3-agent的问题，把约束去掉