RLChina RLChina 是由国内外强化学习学者联合发起的民间学术组织，主要活动包括举办强化学习线上公开课、强化学习线上研讨会等，旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。

发布于 2022-08-09 12:12:27

实践课五：离线强化学习算法

课程学习

浏览 (1681) 点赞 (5) 收藏

秦熔均 2022-08-26 21:27:43 回复

 天人合一 2022-08-26 20:59:23

请问 REVIVE 必须是 Linux 环境吗？

最好是 Linux 的环境，Win 系统下有用户反馈可以使用，但一些 python 依赖包的安装会比较麻烦，Mac 的 license 认证目前可能还有点问题。
天人合一 2022-08-26 20:59:23 回复

 秦熔均 2022-08-23 11:59:05

REVIVE SDK 是一个开发工具包，冰箱的案例为大家提供了一个对 REVIVE SDK 快速的理解，按照 SDK 的文档说明，提供对应的数据集格式和定义 YAML 格式的决策流图，也可以用在用户自定义的场景下面，对场景和数据集的属性没有太多要求。当然，REVIVE 的环境模型学习会更复杂，需要的时间会比 BC 久一些，所以如果数据集本身很充足，且数据范围很大，可以尝试先用 BC 进行环境学习（要通过双环境验证检测环境学习是否符合要求），而对于数据集本身覆盖比较窄、数据较少的情况下，REVIVE 学的环境模型（也要通过双环境验证检测环境学习是否符合要求）对决策一般会更有帮助。

请问 REVIVE 必须是 Linux 环境吗？
曾勇程+中科院自动化所 2022-08-23 12:12:23 回复

 Jasmine 2022-08-23 09:21:25

但是难点在于数据来源所在的环境信息是不可控而且各种都是不同，也大多是环境信息未知的。所以外推时候适用在什么环境中也是个需要解决的问题吧？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com
曾勇程+中科院自动化所 2022-08-23 12:11:31 回复

 vinbo 2022-08-23 11:22:46

请问离线 RL 需要的最少离线数据有一个理论的下限估计吗？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com
曾勇程+中科院自动化所 2022-08-23 12:10:41 回复

 小姚 2022-08-23 11:13:03

老师您好，Offline RL 需要完全的依赖于静态数据集，没有办法与环境进行交互与探索，如果轨迹（数据）全部是专家数据，Offline RL 算法会学习到更好的策略吗？数据集复杂度对模型收敛的又有什么影响呢？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com
秦熔均 2022-08-23 11:59:05 回复

 ClaireGl 2022-08-23 11:20:05

Revive 目前能支持进行环境模型学习的数据有哪些特点，擅长与限制。除了冰箱还有哪些场景？

REVIVE SDK 是一个开发工具包，冰箱的案例为大家提供了一个对 REVIVE SDK 快速的理解，按照 SDK 的文档说明，提供对应的数据集格式和定义 YAML 格式的决策流图，也可以用在用户自定义的场景下面，对场景和数据集的属性没有太多要求。当然，REVIVE 的环境模型学习会更复杂，需要的时间会比 BC 久一些，所以如果数据集本身很充足，且数据范围很大，可以尝试先用 BC 进行环境学习（要通过双环境验证检测环境学习是否符合要求），而对于数据集本身覆盖比较窄、数据较少的情况下，REVIVE 学的环境模型（也要通过双环境验证检测环境学习是否符合要求）对决策一般会更有帮助。
秦熔均 2022-08-23 11:55:22 回复

奔奔跑 2022-08-23 10:13:42

老师您好，如果轨迹全是预训练好的模型（比如训练好的PPO模型）产生的，Offline RL算法会学习到好策略吗？

通常这样的数据集的探索性会很低（比较保守），也符合真实应用场景中数据集的属性，OfflineRL 算法如果能够比较好的用离线策略选择选出有效的模型的话，很多时候也会带来更高的性能，当然，实际运行跑出更好的结果的难度会更大一些。
Jasmine 2022-08-23 11:41:28 回复

我有很多个场景中采集出来的离线数据，但是这些数据都很短，时间跨步就 1 步。但是所有采集的数据都服从一个 DAG 图（），有点类似于广告推荐那种数据，采样的场景差异非常大。所以这样是不是我对环境的建模，就按照抽象的 DAG 图来进行 model-based 也是可以的没问题的吧？
D

darksea 2022-08-23 11:39:36 回复

离线强化学习可以解决自动驾驶类的任务吗
丶

丶阿婧 2022-08-23 11:35:41 回复

老师您好，在学习环境的时候，同时存在 policy 需要学习，那么是如何使用 GAIL 方法能够同时学习 env 和 policy？
时

时比业 2022-08-23 11:34:24 回复

老师，离线强化学习，一般在什么场景下使用？DDPG 也可以应用离线强化学习吗？
S

sirius 2022-08-23 11:33:56 回复

老师好，请问深入学习离线强化学习有什么材料吗
vinbo 2022-08-23 11:22:46 回复

请问离线 RL 需要的最少离线数据有一个理论的下限估计吗？
vinbo 2022-08-23 11:20:42 回复

请问离线 RL 是无偏估计还是有偏估计呢？
ClaireGl 2022-08-23 11:20:05 回复

Revive 目前能支持进行环境模型学习的数据有哪些特点，擅长与限制。除了冰箱还有哪些场景？
小姚 2022-08-23 11:13:03 回复

老师您好，Offline RL 需要完全的依赖于静态数据集，没有办法与环境进行交互与探索，如果轨迹（数据）全部是专家数据，Offline RL 算法会学习到更好的策略吗？数据集复杂度对模型收敛的又有什么影响呢？
R

Rye 2022-08-23 10:57:00 回复

老师可以谈谈离线强化学习和模仿学习的区别吗
奔

奔跑 2022-08-23 10:54:03 回复

老师您好，在离线强化学习处理探索与利用问题上，有没有好的方法训练达到经验最小化获得更多奖励呢？
ClaireGl 2022-08-23 10:19:20 回复

部署自己的算法在 mopo 上的时候，出现了 eval_return 先上涨到正常值，然后突然掉下来保持 0, 老师觉得 model_based 出现 eval_return 等于 0 可能是什么原因？
奔

奔跑 2022-08-23 10:13:42 回复

老师您好，如果轨迹全是预训练好的模型（比如训练好的PPO模型）产生的，Offline RL算法会学习到好策略吗？
刘

刘文辉 2022-08-23 09:47:07 回复

秦老师，您好！在 CQL 那页中，图“how well it does”中，为什么数据量 n 变大了，效果还变差了？您是怎么看待这个现象
Jasmine 2022-08-23 09:31:57 回复

offline 的方法类似于对一批数据进行加工，那么学习到的策略，好像不会超过这批数据本身的最优策略。更像是这批数据所包含的策略的均值表现。
Jasmine 2022-08-23 09:28:17 回复

a quick review 那页 PPT 中，为什么采用的基本是确定性策略，而不是随机性策略呢？随机性策略的更新可以使用 Q 梯度的方法来进行逐步的改进。
Jasmine 2022-08-23 09:21:25 回复

但是难点在于数据来源所在的环境信息是不可控而且各种都是不同，也大多是环境信息未知的。所以外推时候适用在什么环境中也是个需要解决的问题吧？
Jasmine 2022-08-23 09:19:26 回复

Off-line 的话，数据来源于不可控的真实环境，最后优化后的策略也是部署到真实环境中。那么关键就是拿这些数据怎么做处理。既可以直接使用动态规划方法做优化，也可以采用虚拟的仿真环境做试错优化？