RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • C
    C CCS 这家伙很懒,什么都没留下
    发布于26天前

    金榜题名 | IJCAI 2022-Neural MMO 召集令,一同参加AI华山论剑

    导读 当 AI 智能体不再满足「与人斗其乐无穷」,它的能力极限在哪里呢? 今日,由超参数科技发起,联合学界前沿创新力量麻省理工学院、清华大学深圳国际研究生院,以及数据科学挑战平台 AIcrowd 共同主办的「IJCAI 2022-Neural MMO 海量...
    赞
    评论 2
    浏览 150
    学科竞赛
  • sisi_zhou
    sisi_zhou sisi_zhou 这家伙很懒,什么都没留下
    发布于26天前

    多智能体强化学习环境

    想问一下大家,除了 MAgent 外,是否还有其他用高维数据(图像)作为输入的多智能体环境。
    赞
    评论 3
    浏览 98
    水区
  • hba
    hba hba RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-07 02:52:21
    A 4 step proof that value baselines don't affect policy grads in #RL😀Just the log-trick & Fubini gets u there!
    赞 4
    评论 3
    浏览 330
    课程学习
  • Multi-Agent
    Multi-Agent Multi-Agent 这家伙很懒,什么都没留下
    发布于2021-12-22 11:23:02
    各位大佬,有没有multi-agent DDPG相关的代码?最近在学习这方面的知识,但是没有可参考的代码
    赞 1
    评论 3
    浏览 464
    课程学习
  • yaodong
    yaodong yaodong 北京大学助理教授
    发布于2021-11-30 21:05:20

    MARL真的需要centralised training吗?

    Centralised training decentralised execution 似乎已经成为开发现今多智能体强化学习 MARL 算法的唯一范式,基于 CTDE 的各种变形也是花样繁多(例如 MADDPG, COMA, VDN, QMIX)。但事实...
    赞 12
    评论 3
    浏览 1036
    论文研讨
  • R
    R rdgy 这家伙很懒,什么都没留下
    发布于2021-12-01 22:44:59

    强化学习/路径发现 -- 寻找博士联合培养的机会(CSC资助)

    题主是国内高校在读博士,目前是博士 3 年级,研究方向是:强化学习、路径发现、推荐系统。已经发表若干篇期刊/会议论文。 近期在寻求一份 CSC 资助的博士联合培养的机会,奈何课题组熟悉的团队都在美国,在寻找外导时发现这个好地方, 因此过来问一下童鞋们,有没...
    赞
    评论 3
    浏览 513
    水区
  • 张晨珩
    张晨珩 张晨珩 南开大学AI本科生
    发布于17天前

    多样性PSRO:Towards Unifying Behavioral and Response Diversity for Open-ended Learning in Zero-sum Games

    记得之前读过 DeepMind 团队的大作 Real World Games Look Like Spinning Tops,大佬们指出 Real World Games 的策略空间往往像一个陀螺,我们想找到一个好的策略,必须要翻过中间的红色区域。然而这红...
    赞 1
    评论
    浏览 70
    论文研讨
  • 人工智障10032
    人工智障10032 人工智障10032 老码畜跳炼丹炉,无发可秃
    发布于2021-10-15 16:48:53

    多智能体强化学习: 最小方差策略梯度

    知乎链接 https://zhuanlan.zhihu.com/p/421389019 文章翻译自 https://hackmd.io/rkNojzNzQzWXlU0HoaPOrg?view 论文出自 NeurIPS 2021 "Settling the ...
    赞 3
    评论
    浏览 397
    论文研讨
  • 张晨珩
    张晨珩 张晨珩 南开大学AI本科生
    发布于17天前

    生活就像陀螺,抽打永不停息:Real World Games Look Like Spinning Tops

    最近一直在 coding,趁着模型训练的空闲,总算有时间细品这篇垂涎已久的 paper。在之前的笔记多样性 PSRO 中已经提到过其中部分内容,这次来仔细领略一下 DeepMind 大佬们高屋建瓴的思维。 原文传送门:Real World Games Lo...
    赞 2
    评论
    浏览 79
    论文研讨
  • 张晨珩
    张晨珩 张晨珩 南开大学AI本科生
    发布于17天前

    PSRO基本框架:A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning

    这篇文章是 PSRO 框架的开山之作。由于笔者之前一直在做单 agent 强化学习,最近才开始接触 MARL,读了几遍都觉得云里雾里,于是一怒之下啃了一遍博弈论教程,总算是自我感觉理解了大部分内容。将自己的浅显理解整理于此,若有疏漏还望海涵。 原文传送门:...
    赞 2
    评论
    浏览 83
    论文研讨
  • C
    C CCS 这家伙很懒,什么都没留下
    发布于26天前

    AI武林大会—IJCAI 2022-Neural MMO召集令!走酸脚的AI也能上英雄榜!欢迎各位一同探索

    赞
    评论
    浏览 84
    学科竞赛
  • 文
    文 文刂羊羽 这家伙很懒,什么都没留下
    发布于27天前

    强化学习

    最近在看 sutton 的强化学习,了解了很多基础知识,希望从《动手学强化学习》中学到更多的知识,并提高实践能力!
    赞
    评论
    浏览 44
    课程学习
  • 孟令辉
    孟令辉 孟令辉 中科院自动化所2019级直博生 主要关注多智能体强化学习相关方向,包括强化学习预训练、表征强化学习
    发布于2022-04-09 17:29:50

    RLChina 论文研讨会第16期(2022.04.12直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 16 期论文讨论会将由中科院自动化所博士生孟令辉同学主持,罗格斯大学博士生邱文杰、清华大学博士生杨以钦和中科院自动化...
    赞 1
    评论
    浏览 266
    学术活动
  • hba
    hba hba RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-02 22:47:19

    Iterated Law of Expectation Consice Proof (6 simple steps)

    When deriving the Belman equations, we needed the iterated law of expectations. Rather than believing me, have a look at this 6-...
    赞 2
    评论
    浏览 157
    课程学习
  • hba
    hba hba RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-02 05:44:26
    ELBO in 5 simple steps starting direclty from Bayes Rule!
    赞 3
    评论
    浏览 208
    课程学习
  • hba
    hba hba RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-02-28 22:26:57

    (RL 正在改变世界!贝尔曼方程是#RL 的核心。这是一个 3 (3.5:P) 步骤的简明证明)

    赞 6
    评论 2
    浏览 312
    课程学习
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于2021-12-02 11:43:10

    15万奖金!全球首届AI球球大作战:Go-Bigger多智能体决策智能挑战赛火热开赛!

    《球球大作战》是一款风靡全球的休闲电子竞技游戏,以大球吃小球为目标,简单有趣却又斗智斗勇。AI 世界的“大球吃小球”挑战赛现已火热开赛!协作、博弈、对抗,精彩纷呈,欢迎前来挑战! 2021 年 11 月,全球首届“ AI 球球大作战:Go-Bigger ...
    赞 5
    评论
    浏览 643
    学科竞赛
  • yaodong
    yaodong yaodong 北京大学助理教授
    发布于2021-11-19 21:30:58

    MARL中IGM假设的一些问题,以及未来基于Advantage函数分解的方向。

    关于 IGM 的问题,以 QPLEX 为例 做 cooperative MARL 的小伙伴想必都非常熟悉 Individual Global Max 的假设。它指的是,如果想要 joint Q 函数可分解,那一种比较合理的分解方法是假设以下等式成立, 其中...
    赞 10
    评论
    浏览 593
    水区
签到
0
立即签到
公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 强化学习暑期课(每年):http://rlchina.org/topic/9

三、RLChina 智能体挑战赛(每季):http://rlchina.org/topic/216

四、RLChina 前沿讲习班(每月):http://rlchina.org/topic/215

五、RLChina 论文研讨会(每周):http://rlchina.org/topic/219

积分排行
  • RLChina
    RLChina

    59 帖子 • 49 评论

    255
  • Carlos
    Carlos

    2 帖子 • 2 评论

    207
  • Rewrite
    Rewrite

    0 帖子 • 1 评论

    133
  • 支太行
    支太行

    17 帖子 • 34 评论

    131
  • POLIXIR
    POLIXIR

    13 帖子 • 2 评论

    120
  • 张海峰
    张海峰

    4 帖子 • 32 评论

    116
  • AINova
    AINova

    19 帖子 • 38 评论

    85
  • daydayup
    daydayup

    4 帖子 • 33 评论

    82
  • vinbo
    vinbo

    6 帖子 • 32 评论

    82
  • 从头再来
    从头再来

    14 帖子 • 41 评论

    80
友情链接 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

关于 标签 友链
© 2021 Powered by 中国科学院自动化研究所群体决策智能实验室