RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

实践课五:离线强化学习算法

评论(25)
  • 秦熔均
    秦熔均 回复
    天人合一 天人合一 2022-08-26 20:59:23

    请问 REVIVE 必须是 Linux 环境吗?

    最好是 Linux 的环境,Win 系统下有用户反馈可以使用,但一些 python 依赖包的安装会比较麻烦,Mac 的 license 认证目前可能还有点问题。

  • 天人合一
    天人合一 回复
    秦熔均 秦熔均 2022-08-23 11:59:05

    REVIVE SDK 是一个开发工具包,冰箱的案例为大家提供了一个对 REVIVE SDK 快速的理解,按照 SDK 的文档说明,提供对应的数据集格式和定义 YAML 格式的决策流图,也可以用在用户自定义的场景下面,对场景和数据集的属性没有太多要求。当然,REVIVE 的环境模型学习会更复杂,需要的时间会比 BC 久一些,所以如果数据集本身很充足,且数据范围很大,可以尝试先用 BC 进行环境学习(要通过双环境验证检测环境学习是否符合要求),而对于数据集本身覆盖比较窄、数据较少的情况下,REVIVE 学的环境模型(也要通过双环境验证检测环境学习是否符合要求)对决策一般会更有帮助。

    请问 REVIVE 必须是 Linux 环境吗?

  • 曾勇程+中科院自动化所
    Jasmine Jasmine 2022-08-23 09:21:25

    但是难点在于数据来源所在的环境信息是不可控而且各种都是不同,也大多是环境信息未知的。所以外推时候适用在什么环境中也是个需要解决的问题吧?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 曾勇程+中科院自动化所
    vinbo vinbo 2022-08-23 11:22:46

    请问离线 RL 需要的最少离线数据有一个理论的下限估计吗?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 曾勇程+中科院自动化所
    小姚 小姚 2022-08-23 11:13:03

    老师您好,Offline RL 需要完全的依赖于静态数据集 ,没有办法与环境进行交互与探索,如果轨迹(数据)全部是专家数据,Offline RL 算法会学习到更好的策略吗?数据集复杂度对模型收敛的又有什么影响呢?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 秦熔均
    秦熔均 回复
    ClaireGl ClaireGl 2022-08-23 11:20:05

    Revive 目前能支持进行环境模型学习的数据有哪些特点,擅长与限制。除了冰箱还有哪些场景?

    REVIVE SDK 是一个开发工具包,冰箱的案例为大家提供了一个对 REVIVE SDK 快速的理解,按照 SDK 的文档说明,提供对应的数据集格式和定义 YAML 格式的决策流图,也可以用在用户自定义的场景下面,对场景和数据集的属性没有太多要求。当然,REVIVE 的环境模型学习会更复杂,需要的时间会比 BC 久一些,所以如果数据集本身很充足,且数据范围很大,可以尝试先用 BC 进行环境学习(要通过双环境验证检测环境学习是否符合要求),而对于数据集本身覆盖比较窄、数据较少的情况下,REVIVE 学的环境模型(也要通过双环境验证检测环境学习是否符合要求)对决策一般会更有帮助。

  • 秦熔均
    秦熔均 回复
    奔跑 2022-08-23 10:13:42
    老师您好,如果轨迹全是预训练好的模型(比如训练好的PPO模型)产生的,Offline RL算法会学习到好策略吗?

    通常这样的数据集的探索性会很低(比较保守),也符合真实应用场景中数据集的属性,OfflineRL 算法如果能够比较好的用离线策略选择选出有效的模型的话,很多时候也会带来更高的性能,当然,实际运行跑出更好的结果的难度会更大一些。

  • Jasmine
    Jasmine 回复

    我有很多个场景中采集出来的离线数据,但是这些数据都很短,时间跨步就 1 步。但是所有采集的数据都服从一个 DAG 图(),有点类似于广告推荐那种数据,采样的场景差异非常大。所以这样是不是我对环境的建模,就按照抽象的 DAG 图来进行 model-based 也是可以的没问题的吧?

  • darksea 回复

    离线强化学习可以解决自动驾驶类的任务吗

  • 丶阿婧 回复

    老师您好,在学习环境的时候,同时存在 policy 需要学习,那么是如何使用 GAIL 方法能够同时学习 env 和 policy?

  • 时比业 回复

    老师,离线强化学习,一般在什么场景下使用?DDPG 也可以应用离线强化学习吗?

  • sirius 回复

    老师好,请问深入学习离线强化学习有什么材料吗

  • vinbo
    vinbo 回复

    请问离线 RL 需要的最少离线数据有一个理论的下限估计吗?

  • vinbo
    vinbo 回复

    请问离线 RL 是无偏估计还是有偏估计呢?

  • ClaireGl
    ClaireGl 回复

    Revive 目前能支持进行环境模型学习的数据有哪些特点,擅长与限制。除了冰箱还有哪些场景?

  • 小姚
    小姚 回复

    老师您好,Offline RL 需要完全的依赖于静态数据集 ,没有办法与环境进行交互与探索,如果轨迹(数据)全部是专家数据,Offline RL 算法会学习到更好的策略吗?数据集复杂度对模型收敛的又有什么影响呢?

  • Rye 回复

    老师可以谈谈离线强化学习和模仿学习的区别吗

  • 奔跑 回复
    老师您好,在离线强化学习处理探索与利用问题上,有没有好的方法训练达到经验最小化获得更多奖励呢?
  • ClaireGl
    ClaireGl 回复

    部署自己的算法在 mopo 上的时候,出现了 eval_return 先上涨到正常值,然后突然掉下来保持 0, 老师觉得 model_based 出现 eval_return 等于 0 可能是什么原因?

  • 奔跑 回复
    老师您好,如果轨迹全是预训练好的模型(比如训练好的PPO模型)产生的,Offline RL算法会学习到好策略吗?
  • 刘文辉 回复

    秦老师,您好!在 CQL 那页中,图“how well it does”中,为什么数据量 n 变大了,效果还变差了?您是怎么看待这个现象

  • Jasmine
    Jasmine 回复

    offline 的方法类似于对一批数据进行加工,那么学习到的策略,好像不会超过这批数据本身的最优策略。更像是这批数据所包含的策略的均值表现。

  • Jasmine
    Jasmine 回复

    a quick review 那页 PPT 中,为什么采用的基本是确定性策略,而不是随机性策略呢? 随机性策略的更新可以使用 Q 梯度的方法来进行逐步的改进。

  • Jasmine
    Jasmine 回复

    但是难点在于数据来源所在的环境信息是不可控而且各种都是不同,也大多是环境信息未知的。所以外推时候适用在什么环境中也是个需要解决的问题吧?

  • Jasmine
    Jasmine 回复

    Off-line 的话,数据来源于不可控的真实环境,最后优化后的策略也是部署到真实环境中。那么关键就是拿这些数据怎么做处理。既可以直接使用动态规划方法做优化,也可以采用虚拟的仿真环境做试错优化?