RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • cchenmy111
    cchenmy111 cchenmy111 这家伙很懒,什么都没留下
    发布于19天前

    多智能体强化学习求助!

    训练效果很好,奖励看着也收敛,最后的智能体表现在训练结束前的 100 个 episode 表现都不错,为什么最后保存下来的模型加载评估的时候效果大打折扣?已经开启了。eval(),然后评估时为了看智能体学习的程度,我没有更换评估的环境,仍然是之前训练的环境...
    赞
    评论 10
    浏览 166
    水区
  • 自动化所姜纪文
    自动化所姜纪文 自动化所姜纪文 (ง •_•)ง
    发布于2023-10-11 15:27:42

    一文七问 | 论文分享:大规模多智能体系统的分层均值场深度强化学习

    @toc 导读 本篇推文将为大家介绍中山大学余超老师于 2023 AAAI 发表的一篇论文: Hierarchical Mean-Field Deep Reinforcement Learning for Large-Scale Multiagent Sy...
    赞 5
    评论 8
    浏览 2169
    论文研讨
  • J
    J jjx 这家伙很懒,什么都没留下
    发布于2024-10-22 14:03:53

    MADDPG

    GitHub 上开源的关于 maddpg 的代码环境都很老,配置一直错误怎么办? 这是 openai 开源的代码:https://github.com/openai/maddpg 这是环境依赖:Known dependencies: Python (3.5...
    赞
    评论 1
    浏览 344
    水区
  • 哇
    哇 哇哈哈哈 这家伙很懒,什么都没留下
    发布于2024-07-15 17:47:40

    多智能体强化学习MAPPO

    奖励提前收敛是什么原因,正常情况下应该是到 100,附近收敛。 还有一个问题,为什么训练效果时好时坏呢
    赞
    评论 1
    浏览 657
    论文研讨
  • 俊俊
    俊俊 俊俊 这家伙很懒,什么都没留下
    发布于2022-06-27 17:30:00

    RL方向招聘 | “启元实验室”招聘强化学习研究者(可实习)

    招聘岗位 强化学习研究/研发(可实习) 【研究方向】 开展 AI 方向的强化学习算法研究与研发工作,包括但不限于: 针对离线强化学习、表征强化学习、元强化学习,RLHF 等子方向进行算法、理论与应用方面的前沿探索; 针对多智能体的合作和竞争环境,探索强化...
    赞 6
    评论 25
    浏览 4220
    招生招聘
  • qmm
    qmm qmm 多智能体强化学习、分层强化学习、离散网格系统
    发布于2023-08-08 10:40:17

    大规模多智能体学习

    大家好,向大家咨询一些问题,智能体数量达到百万级别在多智体强化学习领域是可行的吗?有推荐的案例吗?比如一些论文或者应用? Hi guys, a few questions for you, is millions of agents feasible in...
    赞
    评论 1
    浏览 949
    论文研讨
  • Haitham Bou Ammar
    Haitham Bou Ammar Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-02 22:47:19

    Iterated Law of Expectation Consice Proof (6 simple steps)

    When deriving the Belman equations, we needed the iterated law of expectations. Rather than believing me, have a look at this 6-...
    赞 3
    评论 1
    浏览 1367
    课程学习
  • Haitham Bou Ammar
    Haitham Bou Ammar Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-07 02:52:21
    A 4 step proof that value baselines don't affect policy grads in #RL😀Just the log-trick & Fubini gets u there!
    赞 8
    评论 4
    浏览 1723
    课程学习
  • 上海数字大脑研究院
    上海数字大脑研究院 上海数字大脑研究院 上海数字大脑研究院(简称“数研院”)汇聚决策智能领域全球领先的科研力量,面向中国及全球产业智能化升级需求,致力于为全球企业提供决策智能解决方案,驱动各产业全面智能化升级。立志做中国产业进步的价值创新者,让决策更科学、更高效、更智能。
    发布于2022-11-30 16:27:27

    产业速递|数字世界里的足球——数研院探索多智能体足球AI并取得新突破

    世界杯终于回来了,经历了疫情的三年时光,全世界的球迷都尤其期盼着这个也许是人类历史上意义仅次于 1948 年伦敦奥运会的盛大赛事——2022 卡塔尔世界杯。 1863 年,英国足球协会在伦敦正式成立,标志着真正意义上的现代足球诞生了。在这一百多年的发展中,...
    赞 1
    评论 1
    浏览 2374
    产业应用
  • 冲
    冲 冲鸭鸭 这家伙很懒,什么都没留下
    发布于2022-06-17 10:22:44

    强化学习中的绘制带阴影的曲线图

    想请问下论文里的这种图怎么画出来的呢?可以用 matplotlib 吗 此外,这种图是要运行同一个实验得到多个结果才能画出来吗
    赞
    评论 8
    浏览 2077
    论文研讨
  • 天
    天 天不生夫子 这家伙很懒,什么都没留下
    发布于2022-05-21 21:32:16

    MPO及V-MPO算法

    怎么理解 MPO 和 V-MPO 算法啊,有没有比较通俗一点的介绍呢?
    赞
    评论 1
    浏览 1560
    水区
  • C
    C CCS 这家伙很懒,什么都没留下
    发布于2022-04-22 16:09:48

    金榜题名 | IJCAI 2022-Neural MMO 召集令,一同参加AI华山论剑

    导读 当 AI 智能体不再满足「与人斗其乐无穷」,它的能力极限在哪里呢? 今日,由超参数科技发起,联合学界前沿创新力量麻省理工学院、清华大学深圳国际研究生院,以及数据科学挑战平台 AIcrowd 共同主办的「IJCAI 2022-Neural MMO 海量...
    赞
    评论 2
    浏览 1488
    学科竞赛
  • sisi_zhou
    sisi_zhou sisi_zhou 这家伙很懒,什么都没留下
    发布于2022-04-22 10:26:09

    多智能体强化学习环境

    想问一下大家,除了 MAgent 外,是否还有其他用高维数据(图像)作为输入的多智能体环境。
    赞
    评论 3
    浏览 1221
    水区
  • Multi-Agent
    Multi-Agent Multi-Agent 这家伙很懒,什么都没留下
    发布于2021-12-22 11:23:02
    各位大佬,有没有multi-agent DDPG相关的代码?最近在学习这方面的知识,但是没有可参考的代码
    赞 2
    评论 3
    浏览 1505
    课程学习
  • yaodong
    yaodong yaodong 北京大学助理教授
    发布于2021-11-30 21:05:20

    MARL真的需要centralised training吗?

    Centralised training decentralised execution 似乎已经成为开发现今多智能体强化学习 MARL 算法的唯一范式,基于 CTDE 的各种变形也是花样繁多(例如 MADDPG, COMA, VDN, QMIX)。但事实...
    赞 13
    评论 3
    浏览 3972
    论文研讨
  • R
    R rdgy 这家伙很懒,什么都没留下
    发布于2021-12-01 22:44:59

    强化学习/路径发现 -- 寻找博士联合培养的机会(CSC资助)

    题主是国内高校在读博士,目前是博士 3 年级,研究方向是:强化学习、路径发现、推荐系统。已经发表若干篇期刊/会议论文。 近期在寻求一份 CSC 资助的博士联合培养的机会,奈何课题组熟悉的团队都在美国,在寻找外导时发现这个好地方, 因此过来问一下童鞋们,有没...
    赞
    评论 3
    浏览 1391
    水区
  • 文
    文 文刂羊羽 这家伙很懒,什么都没留下
    发布于2022-04-21 18:14:39

    强化学习

    最近在看 sutton 的强化学习,了解了很多基础知识,希望从《动手学强化学习》中学到更多的知识,并提高实践能力!
    赞
    评论
    浏览 937
    课程学习
  • C
    C CCS 这家伙很懒,什么都没留下
    发布于2022-04-22 14:33:56

    AI武林大会—IJCAI 2022-Neural MMO召集令!走酸脚的AI也能上英雄榜!欢迎各位一同探索

    赞
    评论
    浏览 1146
    学科竞赛
  • Haitham Bou Ammar
    Haitham Bou Ammar Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-02-28 22:26:57

    (RL 正在改变世界!贝尔曼方程是#RL 的核心。这是一个 3 (3.5:P) 步骤的简明证明)

    赞 6
    评论 2
    浏览 1452
    课程学习
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于2021-12-02 11:43:10

    15万奖金!全球首届AI球球大作战:Go-Bigger多智能体决策智能挑战赛火热开赛!

    《球球大作战》是一款风靡全球的休闲电子竞技游戏,以大球吃小球为目标,简单有趣却又斗智斗勇。AI 世界的“大球吃小球”挑战赛现已火热开赛!协作、博弈、对抗,精彩纷呈,欢迎前来挑战! 2021 年 11 月,全球首届“ AI 球球大作战:Go-Bigger ...
    赞 5
    评论
    浏览 1732
    学科竞赛
签到
0
立即签到
合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 2024 大会(可下载课件):http://rlchina.org/rlchina_2024

三、RLChina 2023 大会(可下载课件):http://rlchina.org/rlchina_2023

四、RLChina 2022 强化学习暑期课:http://rlchina.org/topic/491

五、RLChina 2021 强化学习暑期课:http://rlchina.org/topic/9?utm_source=pocket_saves

六、RLChina 智能体挑战赛:http://rlchina.org/topic/928

七、RLChina 前沿讲习班:http://rlchina.org/topic/215

八、RLChina 论文研讨会:http://rlchina.org/topic/219

积分排行
  • Carlos
    Carlos

    2 帖子 • 4 评论

    957
  • Frei0d
    Frei0d

    1 帖子 • 9 评论

    895
  • R
    Rlxia

    0 帖子 • 0 评论

    564
  • RLChina
    RLChina

    124 帖子 • 77 评论

    454
  • POLIXIR
    POLIXIR

    44 帖子 • 5 评论

    351
  • Rewrite
    Rewrite

    0 帖子 • 4 评论

    215
  • vinbo
    vinbo

    9 帖子 • 84 评论

    167
  • 支太行
    支太行

    17 帖子 • 34 评论

    133
  • 张海峰
    张海峰

    4 帖子 • 43 评论

    132
  • AINova
    AINova

    20 帖子 • 43 评论

    99
关于 标签 友链