RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • kevinliu
    kevinliu kevinliu 这家伙很懒,什么都没留下
    发布于2025-03-03 17:10:22

    神经网络优化器进化论:从SGD到RAD,读懂AI训练的内功心法

    当 ChatGPT-o3 以近乎博士生水平解答各类难题,当 DeepSeek-R1 在复杂推理任务中超越顶尖工程师,我们惊叹于大模型“智能涌现”的奇迹,然而鲜有人意识到:这些拥有千亿参数的“数字大脑”,本质上是从初始混沌状态,通过数万小时的反复训练渐渐成形...
    赞 4
    评论 1
    浏览 424
    经验分享
  • qmm
    qmm qmm 多智能体强化学习、分层强化学习、离散网格系统
    发布于2024-06-15 16:37:14

    强化学习工程泛化问题

    强化训练收敛后,泛化测试结果不好怎么办
    赞
    评论 1
    浏览 552
    经验分享
  • 王卓
    王卓 王卓 这家伙很懒,什么都没留下
    发布于2023-11-07 16:05:37

    RL和域泛化相结合

    如题,域泛化和强化学习最容易想到的就是在 A 域上先训练出一个模型,然后设定强化学习 agent 通过对 B 域不断探索,找到一个最优策略,这应该是最简单的想法,但在 22 年的域泛化综述上只提到了机器人的 control 问题,而在 23 年论文里也没有...
    赞
    评论
    浏览 749
    经验分享
  • 自动化所杨企鹏
    自动化所杨企鹏 自动化所杨企鹏 这家伙很懒,什么都没留下
    发布于2023-10-13 18:30:28

    良师益友 | 中山大学余超:推进智能决策技术产学研合作

    导读 在本次活动中,我们邀请到了中山大学计算机学院的余超副教授。接下来将从个人介绍、学术观点、教研与生活,社会热点等方面带你了解余超老师与其团队。 人物简介 余超博士,中国中山大学"百人计划"引进副教授、博士生导师、国家"香江学者",主要研究兴趣集中在强...
    赞 1
    评论
    浏览 1053
    经验分享
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于2023-06-21 16:04:21

    混合动作空间|揭秘创造人工智能的黑魔法(5)

    在前几期博客里,我们介绍了混合动作空间的定义和相关的一些经典算法(如 P-DQN,H-PPO 等): 混合动作空间 | 揭秘创造人工智能的黑魔法(1):http://rlchina.org/topic/418 混合动作空间 | 揭秘创造人工智能的黑魔法(2...
    赞 1
    评论
    浏览 1079
    经验分享
  • 自动化所姜纪文
    自动化所姜纪文 自动化所姜纪文 (ง •_•)ง
    发布于2023-06-18 19:41:58

    良师益友 | 上海交大温颖:教导机器与世界互动

    导读 “良师益友”是 RLChina 的一个栏目,以采访的形式记录学者对科研工作的思考。 本篇文章主要介绍对上海交通大学助理教授温颖博士的采访,主要涉及个人经历、学术观点、生活与教研 3 个部分,共计 13 个问题。快来看看他想对广大 RL 爱好者说些什么...
    赞
    评论
    浏览 1198
    经验分享
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于2023-06-15 15:12:15

    混合动作空间|揭秘创造人工智能的黑魔法(4)

    还记得我们的混合动作空间专栏吗?过去的三篇专栏里,我们介绍了混合动作空间的定义,常见的动作空间预处理方法,并将当前学术界解决混合动作空间的方法总结为以下三类: 基于状态-动作值函数 Q 的方法 基于状态值函数 V 的方法 基于动作空间学习和转换的方法 ...
    赞 2
    评论
    浏览 725
    经验分享
  • 自动化所王梓薏
    自动化所王梓薏 自动化所王梓薏 这家伙很懒,什么都没留下
    发布于2023-03-09 18:07:44

    良师益友|天津大学郝建业:人工智能的前途在于应用

    导读 “良师益友”是 RLChina 的一个栏目,以采访的形式记录学者对科研工作的思考。 本篇文章主要介绍对天津大学副教授、华为诺亚方舟决策推理实验室主任郝建业博士的采访,主要涉及个人经历、学术观点、产业观点、其他观点 4 个部分,共计 10 个问题。快来...
    赞 2
    评论
    浏览 1738
    经验分享
  • 小
    小 小丶马 这家伙很懒,什么都没留下
    发布于2023-02-22 20:30:48

    请教一下关于动作边界值的问题。

    假如我的动作空间是开区间(-1,1),并且采用的是 PPO 算法,那我要怎么避免智能体取到边界值-1 和 1 呢?常用的方法有哪些诶?
    赞 1
    评论
    浏览 968
    经验分享
  • 大鱼
    大鱼 大鱼 这家伙很懒,什么都没留下
    发布于2022-04-06 08:39:45

    分层强化学习

    请教:分层强化学习有什么推荐的综述文章吗?
    赞
    评论 4
    浏览 1905
    经验分享
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于2022-06-08 12:13:41

    玩转Python|类与方法的隐藏秘密(3)

    上期为大家准备的 Python 攻略,从原理上讲了 Python 类的本质,接下来的两篇 Python 专栏里,继续来讲讲关于类及其方法的一些冷知识和烫知识。 我们也会和前面两篇专栏一样,用各种神奇的例子,从原理和机制的角度为你还原一个不一样的 Pytho...
    赞 2
    评论
    浏览 1188
    经验分享
  • AINova
    AINova AINova 研究强化学习,时空众包
    发布于2021-10-11 09:59:15
    小白可以阅读《深入浅出强化学习》两本书来入门
    赞 1
    评论 6
    浏览 1591
    经验分享
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于2022-05-31 15:08:52

    混合动作空间|揭秘创造人工智能的黑魔法(3)

    在前两篇博客中,我们介绍了深度强化学习的动作空间定义和常见的预处理方法。 混合动作空间 | 揭秘创造人工智能的黑魔法(1) 混合动作空间 | 揭秘创造人工智能的黑魔法(2) 过去的强化学习研究大部分都关注离散动作和连续动作问题,但由于混合动作空间在诸多真实...
    赞 1
    评论
    浏览 2482
    经验分享
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于2022-05-27 12:51:30

    混合动作空间|揭秘创造人工智能的黑魔法(2)

    引言: 我们之前的一篇文章(混合动作空间 | 揭秘创造人工智能的黑魔法(1))中,详细地介绍了强化学习目前常见的动作空间类型,如离散动作、连续动作、混合动作等。本文则将以游戏环境为例,介绍如何对强化学习的动作空间进行预处理(action space sha...
    赞 1
    评论
    浏览 1246
    经验分享
  • S
    S songweifeng 这家伙很懒,什么都没留下
    发布于2022-03-25 11:17:17

    请教关于多智能体DRL和注意力机制的问题

    1、在多智能体的情况下,能否使用局部观测达到甚至超过使用全局信息的训练效果? 2、注意力机制加入之后训练效果不增反减的原因?或者是其使用条件
    赞
    评论
    浏览 1008
    经验分享
  • 7
    7 7bring 这家伙很懒,什么都没留下
    发布于2022-03-20 19:44:25
    请教!有关DQN的损失函数收敛,但是模型表现很差的问题。 详细的问题描述如下链接。 https://zhuanlan.zhihu.com/p/484273534
    赞
    评论
    浏览 1056
    经验分享
  • 清木
    清木 清木 safe learning
    发布于2022-03-03 00:56:53

    Safe Reinforcement Learning Baseline

    我们整理和调查了 safe reinforcement learning 相关的算法 baseline 文献以及 code,有感兴趣的欢迎加入我们,也欢迎任何建议意见。文献和代码链接: https://github.com/chauncygu/Safe-R...
    赞 7
    评论 2
    浏览 1620
    经验分享
  • AINova
    AINova AINova 研究强化学习,时空众包
    发布于2021-11-28 10:47:55

    请问大家有没有入门多智能体强化学习的代码推荐 可供小白入门学习

    有代码推荐的大佬回我回我
    赞 3
    评论 3
    浏览 2646
    经验分享
  • daydayup
    daydayup daydayup 一份伏特加,加一点青柠,姜汁,啤酒,最重要的是,还有一点爱
    发布于2021-10-01 09:43:53

    Unity ML-agents | | 强化学习 | | 交流 | | 求助

    最近在使用 ML-agents,在阅读他的详细设置和算法上遇到了难题,请问有没有小伙伴或者大佬可以一块交流学习啊,或者能给我指一个改写 PPO 的途径,蟹蟹! 问题更新:(主要指 ML-agents 当中 PPO 算法具体输入、具体数据处理、输出都分别在整...
    赞 7
    评论 13
    浏览 2362
    经验分享
  • AINova
    AINova AINova 研究强化学习,时空众包
    发布于2021-10-26 09:55:25

    请问,使用了强化学习技术解决了自己研究方向的问题,效果不错,像这种情况可不可以发表论文

    各位老师同学,我使用 Q-learning 算法解决了自己研究方向的某一个问题,效果还挺好的,但是没怎么对 Q-learning 算法进行改进,是基于 QL 算法的,找到了自己研究问题中对于状态集,动作集,Reward 的映射关系,想请问各位专家老师同学,...
    赞 3
    评论 10
    浏览 1725
    经验分享
公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 2024 大会(可下载课件):http://rlchina.org/rlchina_2024

三、RLChina 2023 大会(可下载课件):http://rlchina.org/rlchina_2023

四、RLChina 2022 强化学习暑期课:http://rlchina.org/topic/491

五、RLChina 2021 强化学习暑期课:http://rlchina.org/topic/9?utm_source=pocket_saves

六、RLChina 智能体挑战赛:http://rlchina.org/topic/928

七、RLChina 前沿讲习班:http://rlchina.org/topic/215

八、RLChina 论文研讨会:http://rlchina.org/topic/219

合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

签到
0
立即签到
积分排行
  • Carlos
    Carlos

    2 帖子 • 4 评论

    957
  • Frei0d
    Frei0d

    1 帖子 • 9 评论

    895
  • R
    Rlxia

    0 帖子 • 0 评论

    564
  • RLChina
    RLChina

    124 帖子 • 77 评论

    454
  • POLIXIR
    POLIXIR

    44 帖子 • 5 评论

    351
  • Rewrite
    Rewrite

    0 帖子 • 4 评论

    215
  • vinbo
    vinbo

    9 帖子 • 84 评论

    167
  • 支太行
    支太行

    17 帖子 • 34 评论

    133
  • 张海峰
    张海峰

    4 帖子 • 43 评论

    132
  • AINova
    AINova

    20 帖子 • 43 评论

    99
关于 标签 友链