RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • 俊俊
    俊俊 俊俊 这家伙很懒,什么都没留下
    发布于2022-06-27 17:30:00

    RL方向招聘 | “启元实验室”招聘强化学习英才

    关于实验室 启元实验室成立于 2020 年 7 月,由北京市人民政府设立,是北京市新型研发机构、独立事业法人科研单位,依托清华大学建设、运行与管理。实验室聚焦智能科技领域科研攻关,立足“体现国家意志,服务国家战略,承担国家使命,代表国家水平”的定位,以勇闯...
    赞 5
    评论 15
    浏览 1991
    招生招聘
  • 上海数字大脑研究院
    上海数字大脑研究院 上海数字大脑研究院 上海数字大脑研究院(简称“数研院”)汇聚决策智能领域全球领先的科研力量,面向中国及全球产业智能化升级需求,致力于为全球企业提供决策智能解决方案,驱动各产业全面智能化升级。立志做中国产业进步的价值创新者,让决策更科学、更高效、更智能。
    发布于2022-11-30 16:27:27

    产业速递|数字世界里的足球——数研院探索多智能体足球AI并取得新突破

    世界杯终于回来了,经历了疫情的三年时光,全世界的球迷都尤其期盼着这个也许是人类历史上意义仅次于 1948 年伦敦奥运会的盛大赛事——2022 卡塔尔世界杯。 1863 年,英国足球协会在伦敦正式成立,标志着真正意义上的现代足球诞生了。在这一百多年的发展中,...
    赞 1
    评论 1
    浏览 257
    产业应用
  • 冲
    冲 冲鸭鸭 这家伙很懒,什么都没留下
    发布于2022-06-17 10:22:44

    强化学习中的绘制带阴影的曲线图

    想请问下论文里的这种图怎么画出来的呢?可以用 matplotlib 吗 此外,这种图是要运行同一个实验得到多个结果才能画出来吗
    赞
    评论 8
    浏览 804
    论文研讨
  • 天
    天 天不生夫子 这家伙很懒,什么都没留下
    发布于2022-05-21 21:32:16

    MPO及V-MPO算法

    怎么理解 MPO 和 V-MPO 算法啊,有没有比较通俗一点的介绍呢?
    赞
    评论 1
    浏览 555
    水区
  • C
    C CCS 这家伙很懒,什么都没留下
    发布于2022-04-22 16:09:48

    金榜题名 | IJCAI 2022-Neural MMO 召集令,一同参加AI华山论剑

    导读 当 AI 智能体不再满足「与人斗其乐无穷」,它的能力极限在哪里呢? 今日,由超参数科技发起,联合学界前沿创新力量麻省理工学院、清华大学深圳国际研究生院,以及数据科学挑战平台 AIcrowd 共同主办的「IJCAI 2022-Neural MMO 海量...
    赞
    评论 2
    浏览 671
    学科竞赛
  • sisi_zhou
    sisi_zhou sisi_zhou 这家伙很懒,什么都没留下
    发布于2022-04-22 10:26:09

    多智能体强化学习环境

    想问一下大家,除了 MAgent 外,是否还有其他用高维数据(图像)作为输入的多智能体环境。
    赞
    评论 3
    浏览 386
    水区
  • Haitham Bou Ammar
    Haitham Bou Ammar Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-07 02:52:21
    A 4 step proof that value baselines don't affect policy grads in #RL😀Just the log-trick & Fubini gets u there!
    赞 5
    评论 3
    浏览 677
    课程学习
  • Multi-Agent
    Multi-Agent Multi-Agent 这家伙很懒,什么都没留下
    发布于2021-12-22 11:23:02
    各位大佬,有没有multi-agent DDPG相关的代码?最近在学习这方面的知识,但是没有可参考的代码
    赞 1
    评论 3
    浏览 848
    课程学习
  • yaodong
    yaodong yaodong 北京大学助理教授
    发布于2021-11-30 21:05:20

    MARL真的需要centralised training吗?

    Centralised training decentralised execution 似乎已经成为开发现今多智能体强化学习 MARL 算法的唯一范式,基于 CTDE 的各种变形也是花样繁多(例如 MADDPG, COMA, VDN, QMIX)。但事实...
    赞 12
    评论 3
    浏览 2577
    论文研讨
  • R
    R rdgy 这家伙很懒,什么都没留下
    发布于2021-12-01 22:44:59

    强化学习/路径发现 -- 寻找博士联合培养的机会(CSC资助)

    题主是国内高校在读博士,目前是博士 3 年级,研究方向是:强化学习、路径发现、推荐系统。已经发表若干篇期刊/会议论文。 近期在寻求一份 CSC 资助的博士联合培养的机会,奈何课题组熟悉的团队都在美国,在寻找外导时发现这个好地方, 因此过来问一下童鞋们,有没...
    赞
    评论 3
    浏览 795
    水区
  • 文
    文 文刂羊羽 这家伙很懒,什么都没留下
    发布于2022-04-21 18:14:39

    强化学习

    最近在看 sutton 的强化学习,了解了很多基础知识,希望从《动手学强化学习》中学到更多的知识,并提高实践能力!
    赞
    评论
    浏览 344
    课程学习
  • 张晨珩
    张晨珩 张晨珩 南开大学19级AI本科生
    发布于2022-05-02 00:08:47

    多样性PSRO:Towards Unifying Behavioral and Response Diversity for Open-ended Learning in Zero-sum Games

    记得之前读过 DeepMind 团队的大作 Real World Games Look Like Spinning Tops,大佬们指出 Real World Games 的策略空间往往像一个陀螺,我们想找到一个好的策略,必须要翻过中间的红色区域。然而这红...
    赞 2
    评论
    浏览 583
    论文研讨
  • 孟令辉
    孟令辉 孟令辉 中科院自动化所2019级直博生 主要关注多智能体强化学习相关方向,包括强化学习预训练、表征强化学习
    发布于2022-04-09 17:29:50

    RLChina 论文研讨会第16期(2022.04.12直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 16 期论文讨论会将由中科院自动化所博士生孟令辉同学主持,罗格斯大学博士生邱文杰、清华大学博士生杨以钦和中科院自动化...
    赞 1
    评论
    浏览 876
    学术活动
  • 张晨珩
    张晨珩 张晨珩 南开大学19级AI本科生
    发布于2022-05-01 23:57:52

    PSRO基本框架:A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning

    这篇文章是 PSRO 框架的开山之作。由于笔者之前一直在做单 agent 强化学习,最近才开始接触 MARL,读了几遍都觉得云里雾里,于是一怒之下啃了一遍博弈论教程,总算是自我感觉理解了大部分内容。将自己的浅显理解整理于此,若有疏漏还望海涵。 原文传送门:...
    赞 3
    评论
    浏览 772
    论文研讨
  • C
    C CCS 这家伙很懒,什么都没留下
    发布于2022-04-22 14:33:56

    AI武林大会—IJCAI 2022-Neural MMO召集令!走酸脚的AI也能上英雄榜!欢迎各位一同探索

    赞
    评论
    浏览 503
    学科竞赛
  • 人工智障10032
    人工智障10032 人工智障10032 老码畜跳炼丹炉,无发可秃
    发布于2021-10-15 16:48:53

    多智能体强化学习: 最小方差策略梯度

    知乎链接 https://zhuanlan.zhihu.com/p/421389019 文章翻译自 https://hackmd.io/rkNojzNzQzWXlU0HoaPOrg?view 论文出自 NeurIPS 2021 "Settling the ...
    赞 4
    评论
    浏览 761
    论文研讨
  • P
    P Puze Liu 这家伙很懒,什么都没留下
    发布于28天前

    机器人桌上曲棍球挑战赛

    我们很高兴地宣布我们新的机器人空气曲棍球挑战赛! 该挑战赛为强化学习和机器人学习的研究人员和从业人员提供了一个平台,让他们在一个真实的机器人任务上相互竞争。每个团队将设计自己的空气曲棍球代理,评估在不同子任务中的表现,最终,每支队伍将在一个完整的游戏中与其...
    赞 2
    评论
    浏览 141
    学科竞赛
  • Haitham Bou Ammar
    Haitham Bou Ammar Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-02 05:44:26
    ELBO in 5 simple steps starting direclty from Bayes Rule!
    赞 3
    评论
    浏览 554
    课程学习
  • Haitham Bou Ammar
    Haitham Bou Ammar Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-02-28 22:26:57

    (RL 正在改变世界!贝尔曼方程是#RL 的核心。这是一个 3 (3.5:P) 步骤的简明证明)

    赞 6
    评论 2
    浏览 780
    课程学习
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于2021-12-02 11:43:10

    15万奖金!全球首届AI球球大作战:Go-Bigger多智能体决策智能挑战赛火热开赛!

    《球球大作战》是一款风靡全球的休闲电子竞技游戏,以大球吃小球为目标,简单有趣却又斗智斗勇。AI 世界的“大球吃小球”挑战赛现已火热开赛!协作、博弈、对抗,精彩纷呈,欢迎前来挑战! 2021 年 11 月,全球首届“ AI 球球大作战:Go-Bigger ...
    赞 5
    评论
    浏览 1023
    学科竞赛
签到
0
立即签到
合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 强化学习暑期课(每年):http://rlchina.org/topic/491

三、RLChina 智能体挑战赛(每季):http://rlchina.org/topic/216

四、RLChina 前沿讲习班(每月):http://rlchina.org/topic/215

五、RLChina 论文研讨会(每周):http://rlchina.org/topic/219

积分排行
  • Carlos
    Carlos

    2 帖子 • 3 评论

    494
  • RLChina
    RLChina

    116 帖子 • 77 评论

    412
  • POLIXIR
    POLIXIR

    33 帖子 • 5 评论

    334
  • Rewrite
    Rewrite

    0 帖子 • 4 评论

    214
  • Frei0d
    Frei0d

    1 帖子 • 7 评论

    210
  • vinbo
    vinbo

    9 帖子 • 84 评论

    164
  • 支太行
    支太行

    17 帖子 • 34 评论

    133
  • 张海峰
    张海峰

    4 帖子 • 43 评论

    132
  • AINova
    AINova

    20 帖子 • 43 评论

    98
  • daydayup
    daydayup

    4 帖子 • 34 评论

    84
关于 标签 友链
© 2021 Powered by 中国科学院自动化研究所群体决策智能实验室