yaodong

北京大学助理教授

https://www.yangyaodong.com

yaodong 北京大学助理教授

发布于2022-01-14 10:44:58

北大AI院多智能体组招收寒研实习生，欢迎对强化学习，多智能体系统感兴趣的同学参加
详情请见

赞 3

评论 3

浏览 2633

招生招聘
yaodong 北京大学助理教授

发布于2021-11-30 21:05:20

MARL真的需要centralised training吗？
Centralised training decentralised execution 似乎已经成为开发现今多智能体强化学习 MARL 算法的唯一范式，基于 CTDE 的各种变形也是花样繁多(例如 MADDPG, COMA, VDN, QMIX)。但事实...

赞 13

评论 3

浏览 4618

论文研讨
yaodong 北京大学助理教授

发布于2021-11-19 21:30:58

MARL中IGM假设的一些问题，以及未来基于Advantage函数分解的方向。
关于 IGM 的问题，以 QPLEX 为例做 cooperative MARL 的小伙伴想必都非常熟悉 Individual Global Max 的假设。它指的是，如果想要 joint Q 函数可分解，那一种比较合理的分解方法是假设以下等式成立，其中...

赞 11

评论

浏览 2255

水区
yaodong 北京大学助理教授

发布于2021-10-12 00:36:08

多智能体置信域策略优化算法 (Trust Region Methods in Multi-Agent Reinforcement Learning)
研究的动机是什么？在单智体强化学习（single-RL）中，置信域方法（trust-region method）有两个比较典型的算法，分别是置信域策略优化算法 Trust Region Policy Optimization (TRPO)以及近端策略优化...

赞 13

评论 2

浏览 3308

论文研讨