RLChina RLChina 是由国内外强化学习学者联合发起的民间学术组织，主要活动包括举办强化学习线上公开课、强化学习线上研讨会等，旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。

发布于 2022-08-09 13:35:03

前沿进展十：Fully Decentralized Multi-Agent RL

课程学习

浏览 (1250) 点赞 (3) 收藏

Xander 2022-08-26 12:13:11 回复

H Hai 2022-08-26 11:18:23

老师您好，在将多个智能体同时执行转化为每个智能体独立执行，采用什么方法可以提高运行速度达到尽快收敛呢？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
Xander 2022-08-26 12:13:06 回复

阿阿迪阿迪小阿迪 2022-08-26 10:45:32

这种独立学习/完全去中心化学习的合作在军事战争场景下的前景和应用如何？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
Xander 2022-08-26 12:06:57 回复

K Kezhi 2022-08-26 10:38:57

卢老师您好，请问如果合作的智能体数量不固定（2-10个）并且智能体之间存在异质性（即动作空间不同）时，如何进行训练可以让最后训练出的智能体策略可以较好地适应各种合作单位组合。

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
Q

qingyang 2022-08-26 11:55:38 回复

老师您好，我想请问一下，TRPO 可以收敛到全局最优吗，或者说在什么条件下可以收敛到全局最优呢？
D

DDD 2022-08-26 11:54:37 回复

Decentralized Multi-Agent RL 还有什么可以进一部分研究的方向？
D

DDD 2022-08-26 11:50:32 回复

DPO 用的 lower bound 离 TRPO 中的 lower bound 有多远？
H

Hai 2022-08-26 11:18:23 回复

老师您好，在将多个智能体同时执行转化为每个智能体独立执行，采用什么方法可以提高运行速度达到尽快收敛呢？
阿

阿迪阿迪小阿迪 2022-08-26 10:45:32 回复

这种独立学习/完全去中心化学习的合作在军事战争场景下的前景和应用如何？
K

Kezhi 2022-08-26 10:38:57 回复

卢老师您好，请问如果合作的智能体数量不固定（2-10个）并且智能体之间存在异质性（即动作空间不同）时，如何进行训练可以让最后训练出的智能体策略可以较好地适应各种合作单位组合。