经验分享 - 话题 | RLChina 强化学习社区

M

M multi-AUV 这家伙很懒，什么都没留下

发布于2025-07-25 16:35:29

随机种子设置
请问训练强化学习算法和测试强化学习算法时，随机种子应该如何设置？（1）训练算法时需要固定随机种子吗？（2）测试算法时需要固定随机种子吗？（3）如果固定随机种子，训练和测试的随机种子值相同吗？（4）为什么虽然在代码中设置了随机种子，但每次运行得到的结果还是不...

赞

评论

浏览 206

经验分享
kevinliu 这家伙很懒，什么都没留下

发布于2025-03-03 17:10:22

神经网络优化器进化论：从SGD到RAD，读懂AI训练的内功心法
当 ChatGPT-o3 以近乎博士生水平解答各类难题，当 DeepSeek-R1 在复杂推理任务中超越顶尖工程师，我们惊叹于大模型“智能涌现”的奇迹，然而鲜有人意识到：这些拥有千亿参数的“数字大脑”，本质上是从初始混沌状态，通过数万小时的反复训练渐渐成形...

赞 4

评论 1

浏览 720

经验分享
qmm 多智能体强化学习、分层强化学习、离散网格系统

发布于2024-06-15 16:37:14

强化学习工程泛化问题
强化训练收敛后，泛化测试结果不好怎么办

赞

评论 1

浏览 716

经验分享
王卓这家伙很懒，什么都没留下

发布于2023-11-07 16:05:37

RL和域泛化相结合
如题，域泛化和强化学习最容易想到的就是在 A 域上先训练出一个模型，然后设定强化学习 agent 通过对 B 域不断探索，找到一个最优策略，这应该是最简单的想法，但在 22 年的域泛化综述上只提到了机器人的 control 问题，而在 23 年论文里也没有...

赞

评论

浏览 925

经验分享
自动化所杨企鹏这家伙很懒，什么都没留下

发布于2023-10-13 18:30:28

良师益友 | 中山大学余超：推进智能决策技术产学研合作
导读在本次活动中，我们邀请到了中山大学计算机学院的余超副教授。接下来将从个人介绍、学术观点、教研与生活，社会热点等方面带你了解余超老师与其团队。人物简介余超博士，中国中山大学"百人计划"引进副教授、博士生导师、国家"香江学者"，主要研究兴趣集中在强...

赞 1

评论

浏览 1340

经验分享
OpenDILab决策智能聚焦科技前沿研究问题，致力于探索下一代人工智能

发布于2023-06-21 16:04:21

混合动作空间｜揭秘创造人工智能的黑魔法（5）
在前几期博客里，我们介绍了混合动作空间的定义和相关的一些经典算法（如 P-DQN，H-PPO 等）：混合动作空间｜揭秘创造人工智能的黑魔法（1）：http://rlchina.org/topic/418 混合动作空间｜揭秘创造人工智能的黑魔法（2...

赞 1

评论

浏览 1478

经验分享
自动化所姜纪文 (ง •_•)ง

发布于2023-06-18 19:41:58

良师益友 | 上海交大温颖：教导机器与世界互动
导读 “良师益友”是 RLChina 的一个栏目，以采访的形式记录学者对科研工作的思考。本篇文章主要介绍对上海交通大学助理教授温颖博士的采访，主要涉及个人经历、学术观点、生活与教研 3 个部分，共计 13 个问题。快来看看他想对广大 RL 爱好者说些什么...

赞

评论

浏览 1499

经验分享
OpenDILab决策智能聚焦科技前沿研究问题，致力于探索下一代人工智能

发布于2023-06-15 15:12:15

混合动作空间｜揭秘创造人工智能的黑魔法（4）
还记得我们的混合动作空间专栏吗？过去的三篇专栏里，我们介绍了混合动作空间的定义，常见的动作空间预处理方法，并将当前学术界解决混合动作空间的方法总结为以下三类：基于状态-动作值函数 Q 的方法基于状态值函数 V 的方法基于动作空间学习和转换的方法 ...

赞 2

评论

浏览 876

经验分享
自动化所王梓薏这家伙很懒，什么都没留下

发布于2023-03-09 18:07:44

良师益友|天津大学郝建业：人工智能的前途在于应用
导读 “良师益友”是 RLChina 的一个栏目，以采访的形式记录学者对科研工作的思考。本篇文章主要介绍对天津大学副教授、华为诺亚方舟决策推理实验室主任郝建业博士的采访，主要涉及个人经历、学术观点、产业观点、其他观点 4 个部分，共计 10 个问题。快来...

赞 2

评论

浏览 1984

经验分享
小

小小丶马这家伙很懒，什么都没留下

发布于2023-02-22 20:30:48

请教一下关于动作边界值的问题。
假如我的动作空间是开区间（-1,1），并且采用的是 PPO 算法，那我要怎么避免智能体取到边界值-1 和 1 呢？常用的方法有哪些诶？

赞 1

评论

浏览 1103

经验分享
大鱼这家伙很懒，什么都没留下

发布于2022-04-06 08:39:45

分层强化学习
请教：分层强化学习有什么推荐的综述文章吗？

赞

评论 4

浏览 2067

经验分享
OpenDILab决策智能聚焦科技前沿研究问题，致力于探索下一代人工智能

发布于2022-06-08 12:13:41

玩转Python｜类与方法的隐藏秘密（3）
上期为大家准备的 Python 攻略，从原理上讲了 Python 类的本质，接下来的两篇 Python 专栏里，继续来讲讲关于类及其方法的一些冷知识和烫知识。我们也会和前面两篇专栏一样，用各种神奇的例子，从原理和机制的角度为你还原一个不一样的 Pytho...

赞 2

评论

浏览 1351

经验分享
AINova 研究强化学习，时空众包

发布于2021-10-11 09:59:15

小白可以阅读《深入浅出强化学习》两本书来入门

赞 1

评论 6

浏览 1713

经验分享
OpenDILab决策智能聚焦科技前沿研究问题，致力于探索下一代人工智能

发布于2022-05-31 15:08:52

混合动作空间｜揭秘创造人工智能的黑魔法（3）
在前两篇博客中，我们介绍了深度强化学习的动作空间定义和常见的预处理方法。混合动作空间 | 揭秘创造人工智能的黑魔法(1) 混合动作空间 | 揭秘创造人工智能的黑魔法(2) 过去的强化学习研究大部分都关注离散动作和连续动作问题，但由于混合动作空间在诸多真实...

赞 1

评论

浏览 3085

经验分享
OpenDILab决策智能聚焦科技前沿研究问题，致力于探索下一代人工智能

发布于2022-05-27 12:51:30

混合动作空间｜揭秘创造人工智能的黑魔法（2）
引言：我们之前的一篇文章（混合动作空间｜揭秘创造人工智能的黑魔法（1））中，详细地介绍了强化学习目前常见的动作空间类型，如离散动作、连续动作、混合动作等。本文则将以游戏环境为例，介绍如何对强化学习的动作空间进行预处理（action space sha...

赞 1

评论

浏览 1426

经验分享
S

S songweifeng 这家伙很懒，什么都没留下

发布于2022-03-25 11:17:17

请教关于多智能体DRL和注意力机制的问题
1、在多智能体的情况下，能否使用局部观测达到甚至超过使用全局信息的训练效果？ 2、注意力机制加入之后训练效果不增反减的原因？或者是其使用条件

赞

评论

浏览 1147

经验分享
7

7 7bring 这家伙很懒，什么都没留下

发布于2022-03-20 19:44:25

请教！有关DQN的损失函数收敛，但是模型表现很差的问题。详细的问题描述如下链接。 https://zhuanlan.zhihu.com/p/484273534

赞

评论

浏览 1176

经验分享
清木 safe learning

发布于2022-03-03 00:56:53

Safe Reinforcement Learning Baseline
我们整理和调查了 safe reinforcement learning 相关的算法 baseline 文献以及 code，有感兴趣的欢迎加入我们，也欢迎任何建议意见。文献和代码链接： https://github.com/chauncygu/Safe-R...

赞 7

评论 2

浏览 1882

经验分享
AINova 研究强化学习，时空众包

发布于2021-11-28 10:47:55

请问大家有没有入门多智能体强化学习的代码推荐可供小白入门学习
有代码推荐的大佬回我回我

赞 3

评论 3

浏览 2855

经验分享
daydayup 一份伏特加，加一点青柠，姜汁，啤酒，最重要的是，还有一点爱

发布于2021-10-01 09:43:53

Unity ML-agents | | 强化学习 | | 交流 | | 求助
最近在使用 ML-agents，在阅读他的详细设置和算法上遇到了难题，请问有没有小伙伴或者大佬可以一块交流学习啊，或者能给我指一个改写 PPO 的途径，蟹蟹！问题更新：（主要指 ML-agents 当中 PPO 算法具体输入、具体数据处理、输出都分别在整...

赞 7

评论 13

浏览 2629

经验分享

首次进入社区的小伙伴，欢迎了解以下事项，参与相关活动：

一、RLChina 组织形式：http://rlchina.org/topic/211

二、RLChina 2025 大会：http://rlchina.org/rlchina_2025

三、RLChina 2024 大会（可下载课件）：http://rlchina.org/rlchina_2024

四、RLChina 2023 大会（可下载课件）：http://rlchina.org/rlchina_2023

五、RLChina 2022 强化学习暑期课：http://rlchina.org/topic/491

六、RLChina 2021 强化学习暑期课：http://rlchina.org/topic/9?utm_source=pocket_saves

七、RLChina 智能体挑战赛：http://rlchina.org/topic/928

八、RLChina 前沿讲习班：http://rlchina.org/topic/215

九、RLChina 论文研讨会：http://rlchina.org/topic/219

Frei0d
1 帖子 • 9 评论

1034
Carlos
2 帖子 • 4 评论

957
R
Rlxia
0 帖子 • 0 评论

568
RLChina
124 帖子 • 77 评论

455
POLIXIR
44 帖子 • 5 评论

351
Rewrite
0 帖子 • 4 评论

215
vinbo
9 帖子 • 84 评论

168
支太行
17 帖子 • 34 评论

133
张海峰
4 帖子 • 43 评论

132
AINova
20 帖子 • 43 评论

99