离线强化学习 - 话题 | RLChina 强化学习社区

Error_666 Work hard, be nice.

发布于2024-10-07 22:39:11

TD时序差分算法的off-policy version的疑问
目前对 off-policy 的理解是，生成 experience 数据的 policy 与优化出的 policy 不同。那么如果是这样的话，与 on-policy 相比，感觉很难得到真正的最优 policy，因为它是在生成 experience 数据的...

赞

评论 2

浏览 588

水区
F

F Fox 这家伙很懒，什么都没留下

发布于2023-09-01 21:42:49

奖励设置问题
环境是一个图网络，其中，规定了起点、终点和最大行驶距离（路径的权重和）。现在每条边上都有一个信息量可收集，我们期望在已有约束下最大化信息量收集。目前的做法是将下一个动作获取的信息量（即下一步走过的边上的信息量）作为奖励。现在在训练中发现，由于所有合法...

赞 3

评论 2

浏览 930

水区
Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.

发布于2022-03-02 22:47:19

Iterated Law of Expectation Consice Proof (6 simple steps)
When deriving the Belman equations, we needed the iterated law of expectations. Rather than believing me, have a look at this 6-...

赞 3

评论 1

浏览 1447

课程学习
Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.

发布于2022-03-07 02:52:21
A 4 step proof that value baselines don't affect policy grads in #RL😀Just the log-trick & Fubini gets u there!
赞 9

评论 4

浏览 1826

课程学习
POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业，核心技术是通过推演亿万种决策的不同结果，找到通向未来的最优路径，实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启，开创性地提出数据驱动的虚拟环境构建技术，从少量历史交互数据中构建虚拟世界，寻找最优决策，避免在线试错的代价。

发布于2022-07-14 10:37:45

「仙启教学视频」基于VS Code的POLIXIR REVIVE SDK 开发，数据驱动强化学习（离线强化学习）开发工具包辅助插件
基于 VS Code 的 POLIXIR REVIVE SDK 开发，数据驱动强化学习（离线强化学习）开发工具包辅助插件教学视频已发布，欢迎小伙伴们查阅观看！视频观看，详见南栖仙策 B 站：基于 VS Code 的 POLIXIR REVIVE SDK ...

赞

评论 5

浏览 1259

实用工具
POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业，核心技术是通过推演亿万种决策的不同结果，找到通向未来的最优路径，实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启，开创性地提出数据驱动的虚拟环境构建技术，从少量历史交互数据中构建虚拟世界，寻找最优决策，避免在线试错的代价。

发布于2021-12-25 09:43:32

【比赛专用】 AI决策•强化学习落地挑战赛——学习制定平等的促销策略，基线（baseline）方案与代码
基线(baseline)方案与代码本次挑战赛使用的技术方法不限。本文介绍南栖仙策为挑战赛提供的基线方案。基线方案基于 Polixir Revive SDK 【下载地址】，基线代码与样例提交代码参见比赛所提供的 starting_kit.zip。在此方案...

赞 3

评论 4

浏览 1630

学科竞赛
POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业，核心技术是通过推演亿万种决策的不同结果，找到通向未来的最优路径，实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启，开创性地提出数据驱动的虚拟环境构建技术，从少量历史交互数据中构建虚拟世界，寻找最优决策，避免在线试错的代价。

发布于2021-12-24 13:47:32

AI决策•强化学习落地挑战赛——学习制定平等的促销策略，报名火热进行中
AI 决策•强化学习挑战赛【学习制定平等的促销策略】，报名火热进行中。比赛诚邀“挑战者”以 AI 营销策略者的身份共同助力智能营销，解决保障消费者权益前提下的营销挑战，考察参赛者 AI 决策的落地能力。欢迎前来挑战！【比赛背景】强化学习在围棋、游戏等...

赞 1

评论 1

浏览 1633

学科竞赛
Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.

发布于2022-03-02 05:44:26
ELBO in 5 simple steps starting direclty from Bayes Rule!
赞 3

评论

浏览 1327

课程学习
POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业，核心技术是通过推演亿万种决策的不同结果，找到通向未来的最优路径，实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启，开创性地提出数据驱动的虚拟环境构建技术，从少量历史交互数据中构建虚拟世界，寻找最优决策，避免在线试错的代价。

发布于2022-07-04 15:29:10

【REVIVE SDK版本更新】REVIVE SDK 0.7.2版正式发布
REVIVE SDK 0.7.2 版正式发布，欢迎小伙伴们下载使用。 1、REVIVE SDK 0.7.2 下载地址：REVIVE SDK 首页 2、REVIVE SDK 0.7.2 文档地址： REVIVE 帮助中心 3、REVIVE SDK 0.7....

赞

评论

浏览 998

实用工具
POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业，核心技术是通过推演亿万种决策的不同结果，找到通向未来的最优路径，实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启，开创性地提出数据驱动的虚拟环境构建技术，从少量历史交互数据中构建虚拟世界，寻找最优决策，避免在线试错的代价。

发布于2022-07-05 14:01:28

「仙启」REVIVE SDK下载与安装（基于Docker），数据驱动强化学习（离线强化学习）开发工具包
数据驱动强化学习（离线强化学习）开发工具包 REVIVE SDK 下载与安装（基于 Docker）的教学视频已发布，欢迎小伙伴们查阅观看！视频观看，详见南栖仙策 B 站：REVIVE SDK 下载与安装（基于 Docker）【POLIXIR REVIV...

赞

评论

浏览 1124

实用工具
OpenDILab决策智能聚焦科技前沿研究问题，致力于探索下一代人工智能

发布于2022-07-06 11:13:42
第3期Insight Time前沿技术交流分享会马上又要和大家见面了！本期邀请的嘉宾是来自悉尼大学的在读博士生Yae同学，其研究方向为计算机视觉和强化学习，目前专注于离线强化学习及多智能体强化学习。本次分享将会带来： - 了解决策AI大模型训练的基本原理 - 掌握大模型训练的监督、自监督学习技术应用于序列决策任务的创新思路 - 了解大型通用模型训练的更多应用性请锁定7月6日（周三）晚8点的直播哦～
赞

评论

浏览 845

学术活动
POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业，核心技术是通过推演亿万种决策的不同结果，找到通向未来的最优路径，实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启，开创性地提出数据驱动的虚拟环境构建技术，从少量历史交互数据中构建虚拟世界，寻找最优决策，避免在线试错的代价。

发布于2022-07-01 16:34:12

【REVIVE IDE发布】POLIXIR REVIVE For VS Code 1.0正式发布
POLIXIR REVIVE For VS Code 1.0 正式发布，欢迎小伙伴们下载试用。 1、POLIXIR REVIVE For VS Code 1.0 正式发布： https://marketplace.visualstudio.com/item...

赞

评论

浏览 988

实用工具
孟令辉中科院自动化所2019级直博生主要关注多智能体强化学习相关方向，包括强化学习预训练、表征强化学习

发布于2022-04-09 17:29:50

RLChina 论文研讨会第16期（2022.04.12直播）
导读论文研讨会是 RLChina 举办的学术活动，由 RL 领域不同研究团队轮流担任主持人，邀请一线研究人员针对特定论文做交流分享。第 16 期论文讨论会将由中科院自动化所博士生孟令辉同学主持，罗格斯大学博士生邱文杰、清华大学博士生杨以钦和中科院自动化...

赞 1

评论

浏览 1930

学术活动
因果与Markov 这家伙很懒，什么都没留下

发布于2021-12-13 21:48:17

就目前我所看到的model-based方法中，对于transition model的建模(or估计)都是直接把数据（如果是图像就可能用个VAE提取latent vector）输入到神经网络(不管是MLP还是RNN也好）中，直接对这个转移分布P进行建模，但是这种方法必然是存在一些“不该有”的bias。这个“不该有”的bias可以通过单纯利用状态的Causal parent去对transition model进行建模从而消除，但是问题在于，如何去寻找这个Causal Parent呢？能不能寻找与建模同时进行呢？

赞

评论

浏览 1162

论文研讨
Criswim 这家伙很懒，什么都没留下

发布于2025-04-17 20:11:08

RLChina 论文研讨会第113期（2025.04.22直播）
导读论文研讨会是 RLChina 举办的学术活动，由 RL 领域不同研究团队轮流担任主持人，邀请一线研究人员针对特定论文做交流分享。第 114 期论文研讨会将由清华大学自动化系博士生毛逸休主持，清华大学自动化系博士生曲云为大家分享最新的研究工作，欢迎大...

赞 1

评论

浏览 431

论文研讨
Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.

发布于2022-02-28 22:26:57

(RL 正在改变世界！贝尔曼方程是#RL 的核心。这是一个 3 (3.5:P) 步骤的简明证明)

赞 6

评论 2

浏览 1531

课程学习
POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业，核心技术是通过推演亿万种决策的不同结果，找到通向未来的最优路径，实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启，开创性地提出数据驱动的虚拟环境构建技术，从少量历史交互数据中构建虚拟世界，寻找最优决策，避免在线试错的代价。

发布于2022-02-11 15:19:16

【复赛正式开启•报名参赛持续进行中】AI决策•强化学习落地挑战赛——学习制定平等的促销策略
AI 决策•强化学习挑战赛【学习制定平等的促销策略】，复赛正式开启中，同时继续开启注册参加比赛窗口，欢迎更多爱好者前来挑战！【比赛概览】 1、为了鼓励更多参赛队伍参加竞赛，所有已注册队伍和个人都将自动进入下一轮竞赛进入复赛队伍通过比赛平台下载新提供的更...

赞

评论

浏览 1082

学科竞赛
POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业，核心技术是通过推演亿万种决策的不同结果，找到通向未来的最优路径，实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启，开创性地提出数据驱动的虚拟环境构建技术，从少量历史交互数据中构建虚拟世界，寻找最优决策，避免在线试错的代价。

发布于2022-01-06 13:03:05

【更新•基线(baseline)方案详解与代码示例】 AI决策•强化学习落地挑战赛——学习制定平等的促销策略
本文更新了南栖仙策为挑战赛提供的基线方案，对基线方案做了更详细说明，以及说明了如何评估和改善基线训练出的环境和模型策略。欢迎大家下载查阅。 1、基线方案基于 Polixir Revive SDK 【下载地址】 2、基线代码，样例提交代码，以及用于指导参赛者...

赞

评论

浏览 1311

学科竞赛
POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业，核心技术是通过推演亿万种决策的不同结果，找到通向未来的最优路径，实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启，开创性地提出数据驱动的虚拟环境构建技术，从少量历史交互数据中构建虚拟世界，寻找最优决策，避免在线试错的代价。

发布于2022-01-27 18:43:13

【VSCode Polixir Revive插件发布 • 基于Revive插件的Baseline设计】AI决策•强化学习落地挑战赛——学习制定平等的促销策略
本文提供了南栖仙策发布的 VSCode Polixir Revive 插件，以及基于此插件的基线（Baseline）方案设计指导，欢迎查阅。 1、VSCode Polixir Revive 插件正式发布 https://marketplace.visual...

赞

评论

浏览 1283

学科竞赛
POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业，核心技术是通过推演亿万种决策的不同结果，找到通向未来的最优路径，实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启，开创性地提出数据驱动的虚拟环境构建技术，从少量历史交互数据中构建虚拟世界，寻找最优决策，避免在线试错的代价。

发布于2022-01-27 14:59:53

【更新•比赛基线(baseline)方案】 AI决策•强化学习落地挑战赛——学习制定平等的促销策略
本文重新更新了南栖仙策为挑战赛提供的基线方案，对基线方案做了更详细说明，欢迎大家查阅详细方案。更新点： 1、 Revive SDK 更新至 0.6.0 版本； 2、整理 baseline 代码，以提高可读性，并方便状态等的自定义修改（请关注新增的 u...

赞

评论

浏览 1393

学科竞赛

首次进入社区的小伙伴，欢迎了解以下事项，参与相关活动：

一、RLChina 组织形式：http://rlchina.org/topic/211

二、RLChina 2024 大会（可下载课件）：http://rlchina.org/rlchina_2024

三、RLChina 2023 大会（可下载课件）：http://rlchina.org/rlchina_2023

四、RLChina 2022 强化学习暑期课：http://rlchina.org/topic/491

五、RLChina 2021 强化学习暑期课：http://rlchina.org/topic/9?utm_source=pocket_saves

六、RLChina 智能体挑战赛：http://rlchina.org/topic/928

七、RLChina 前沿讲习班：http://rlchina.org/topic/215

八、RLChina 论文研讨会：http://rlchina.org/topic/219

Frei0d
1 帖子 • 9 评论

978
Carlos
2 帖子 • 4 评论

957
R
Rlxia
0 帖子 • 0 评论

568
RLChina
124 帖子 • 77 评论

454
POLIXIR
44 帖子 • 5 评论

351
Rewrite
0 帖子 • 4 评论

215
vinbo
9 帖子 • 84 评论

167
支太行
17 帖子 • 34 评论

133
张海峰
4 帖子 • 43 评论

132
AINova
20 帖子 • 43 评论

99