RLChina 强化学习社区
发表
发动态
发帖子
登录/注册
首页
话题
发动态
发帖子
消息
登录/注册
最新
推荐
关注
yaodong
北京大学助理教授
https://www.yangyaodong.com
个人成就
积分
9
帖子
4
评论
5
注册排名
172
关注了
0
关注者
24
帖子
文章
yaodong
北京大学助理教授
发布于2022-01-14 10:44:58
北大AI院多智能体组招收寒研实习生,欢迎对强化学习,多智能体系统感兴趣的同学参加
详情请见
赞
3
评论
3
浏览
2074
招生招聘
yaodong
北京大学助理教授
发布于2021-11-30 21:05:20
MARL真的需要centralised training吗?
Centralised training decentralised execution 似乎已经成为开发现今多智能体强化学习 MARL 算法的唯一范式,基于 CTDE 的各种变形也是花样繁多(例如 MADDPG, COMA, VDN, QMIX)。但事实...
赞
13
评论
3
浏览
3688
论文研讨
yaodong
北京大学助理教授
发布于2021-11-19 21:30:58
MARL中IGM假设的一些问题,以及未来基于Advantage函数分解的方向。
关于 IGM 的问题,以 QPLEX 为例 做 cooperative MARL 的小伙伴想必都非常熟悉 Individual Global Max 的假设。它指的是,如果想要 joint Q 函数可分解,那一种比较合理的分解方法是假设以下等式成立, 其中...
赞
10
评论
浏览
1519
水区
yaodong
北京大学助理教授
发布于2021-10-12 00:36:08
多智能体置信域策略优化算法 (Trust Region Methods in Multi-Agent Reinforcement Learning)
研究的动机是什么? 在单智体强化学习(single-RL)中,置信域方法(trust-region method)有两个比较典型的算法,分别是置信域策略优化算法 Trust Region Policy Optimization (TRPO)以及近端策略优化...
赞
13
评论
2
浏览
2006
论文研讨
到底啦