RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • pan95732
    pan95732 pan95732 pan95732
    发布于2023-09-14 09:54:21

    学霸们,无论你在职还是在读欢迎你的加入!

    【介绍】 我们是一家专注于为大学生群体提供课后习题答疑的教育机构,采用网络 1 对 1 的答疑形式。在这里,我们能提供不同难度的习题辅导的机会。只要您有电脑,学习成绩优秀,在空闲时解题,然后用文字 or 文档的形式给学生答疑解惑即可。 【时间】 我们是灵活...
    赞 1
    评论 4
    浏览 1322
    招生招聘
  • 冲
    冲 冲鸭鸭 这家伙很懒,什么都没留下
    发布于2022-06-17 10:22:44

    强化学习中的绘制带阴影的曲线图

    想请问下论文里的这种图怎么画出来的呢?可以用 matplotlib 吗 此外,这种图是要运行同一个实验得到多个结果才能画出来吗
    赞
    评论 8
    浏览 2086
    论文研讨
  • 董豪
    董豪 董豪 Assistant Professor, 机器学习/强化学习/人工智能/计算机视觉/机器人,北京大学
    发布于2022-02-11 11:54:15

    「强化学习」中文书籍免费开源啦

    书籍主页:https://deepreinforcementlearningbook.org/ (中文版可以在主页免费下载!!!) 为什么写这本书? 我们写这本书的初衷是因为市面上很少有书籍或者教程能同时覆盖从“0 到 1”和“从 1 到 N”的深度强化学...
    赞 8
    评论 1
    浏览 1853
    课程学习
  • 瑞昌_cary
    瑞昌_cary 瑞昌_cary 致力于深度强化学习,让世界更智能
    发布于2021-12-05 16:21:05

    请问离线深度强化学习训练出的策略如何与其他强化学习算法进行对比?有哪些评价指标

    我们都知道机器学习与深度学习有一些正确率、ROC 曲线、召回率等评价指标,如果利用的是离线数据训练的强化学习模型,如何与其他算法进行对比呢?评价指标是什么?怎么算呢?
    赞
    评论 1
    浏览 1111
    论文研讨
  • RLChina
    RLChina RLChina RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
    发布于2021-09-24 17:20:25

    一文七问 | 经典论文:利用深度强化学习进行连续动作控制(DDPG)

    @toc 导读 本篇推文将为大家介绍 DeepMind 团队于 2016 年在人工智能领域顶级会议 ICLR 上发表的一篇论文: Continuous Control with Deep Reinforcement Learning。该论文介绍了一种用于解...
    赞 3
    评论
    浏览 1535
    论文研讨
  • 博文视点Broadview
    博文视点Broadview 博文视点Broadview 博文视点,IT出版旗舰品牌,关注人工智能领域前沿技术与深度应用,出版人工智能领域优质好书。就跟小编一起来交流和学习人工智能的热点、难点知识吧!让我们一起来抢占人工智能至高点!
    发布于2021-12-07 09:23:04

    解经典强化学习算法,搞定“阿尔法狗”下围棋

    以上内容摘自《深度强化学习:基础、研究与应用》一书。想继续阅读的读者欢迎关注和购买此书阅读。 《深度强化学习:基础、研究与应用》 董豪、丁子涵、仉尚航等 著 一本书轻松上手深度学习 | 强化学习 | 模仿学习 | 集成学习 | 并行计算 | 多智能体强化...
    赞
    评论
    浏览 1175
    水区
  • Xxwl
    Xxwl Xxwl 这家伙很懒,什么都没留下
    发布于2022-03-18 20:29:44

    Attention, Learn to Solve Routing Problems! 实验部分问题

    有没有大佬跑过这篇经典论文的代码?训练数据 1280000 训练一个 epoch 要多久呀?
    赞
    评论
    浏览 1166
    水区
  • 李
    李 李建平 这家伙很懒,什么都没留下
    发布于2022-03-24 20:36:53

    CS285 《深度强化学习》学习笔记

    根据英文字幕和 PPT 整理而成,方便复习。欢迎一起学习! CS285 学习笔记专栏
    赞 2
    评论
    浏览 1415
    水区
  • 李
    李 李海 这家伙很懒,什么都没留下
    发布于2022-05-20 21:15:53

    深度强化学习中神经网络的收敛问题?

    各位老师和同学好,最近研究遇到一个疑惑,想发帖求助一下社区中的大神。 问题:强化学习中更新 Q 网络或者策略网络一般有期望更新和采样更新两种方式,我对于采样更新有一个疑问就是在采样的过程中伴随着随机性,这种随机性将直接导致 Q 值网络或者策略网络不能很好的...
    赞
    评论
    浏览 1225
    水区
  • Z
    Z Zoey 这家伙很懒,什么都没留下
    发布于2023-02-17 15:35:03

    强化学习算法训练后如何用tensorboard统计环境返回的info内的数据?

    用 rl 算法训练后,需要用 tensorboard 统计 env 返回的 info 内的一些数据,但无法读取字典。 在算法。py 文件的 writer = SummaryWriter() 语句后使用:writer.add_scalar("xxx", en...
    赞
    评论
    浏览 698
    水区
  • 胡裕靖-网易伏羲
    胡裕靖-网易伏羲 胡裕靖-网易伏羲 网易伏羲强化学习研究负责人
    发布于2023-08-23 11:03:47

    网易伏羲算法大赛 | 全明星街球派对游戏AI竞赛即将起航

    网易伏羲盛邀广大人工智能研究者参与 2023 年《全明星街球派对》人工智能竞赛,创造一场篮球与 AI 的盛宴! 八月二十三日,丰厚的奖励,宽广舞台敬候您登场! 赛事全称 2023 网易伏羲全明星街球派对人工智能竞赛 赛事背景 网易伏羲将于今年 8 月 2...
    赞
    评论
    浏览 1266
    学科竞赛
  • kevinliu
    kevinliu kevinliu 这家伙很懒,什么都没留下
    发布于2024-12-18 11:23:24

    清华团队提出RL专用神经网络优化器,性能位居榜首

    在人工智能领域,强化学习(RL)一直被视为解决复杂序列决策问题的有力工具。这项技术不仅在电子游戏、棋类智能、机器人控制、自动驾驶等前沿领域大放异彩,还在大语言模型(LLM)的微调、对齐、推理等关键阶段发挥着重要作用。 然而,在深度神经网络作为函数近似器的背...
    赞 4
    评论
    浏览 672
    论文研讨
  • kevinliu
    kevinliu kevinliu 这家伙很懒,什么都没留下
    发布于2025-03-03 17:10:22

    神经网络优化器进化论:从SGD到RAD,读懂AI训练的内功心法

    当 ChatGPT-o3 以近乎博士生水平解答各类难题,当 DeepSeek-R1 在复杂推理任务中超越顶尖工程师,我们惊叹于大模型“智能涌现”的奇迹,然而鲜有人意识到:这些拥有千亿参数的“数字大脑”,本质上是从初始混沌状态,通过数万小时的反复训练渐渐成形...
    赞 4
    评论 1
    浏览 430
    经验分享
签到
0
立即签到
合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 2024 大会(可下载课件):http://rlchina.org/rlchina_2024

三、RLChina 2023 大会(可下载课件):http://rlchina.org/rlchina_2023

四、RLChina 2022 强化学习暑期课:http://rlchina.org/topic/491

五、RLChina 2021 强化学习暑期课:http://rlchina.org/topic/9?utm_source=pocket_saves

六、RLChina 智能体挑战赛:http://rlchina.org/topic/928

七、RLChina 前沿讲习班:http://rlchina.org/topic/215

八、RLChina 论文研讨会:http://rlchina.org/topic/219

积分排行
  • Carlos
    Carlos

    2 帖子 • 4 评论

    957
  • Frei0d
    Frei0d

    1 帖子 • 9 评论

    899
  • R
    Rlxia

    0 帖子 • 0 评论

    564
  • RLChina
    RLChina

    124 帖子 • 77 评论

    454
  • POLIXIR
    POLIXIR

    44 帖子 • 5 评论

    351
  • Rewrite
    Rewrite

    0 帖子 • 4 评论

    215
  • vinbo
    vinbo

    9 帖子 • 84 评论

    167
  • 支太行
    支太行

    17 帖子 • 34 评论

    133
  • 张海峰
    张海峰

    4 帖子 • 43 评论

    132
  • AINova
    AINova

    20 帖子 • 43 评论

    99
关于 标签 友链