RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

专题报告三:模仿学习与基于模型的强化学习

评论(41)
  • KRHKK
    KRHKK 回复
    我爱学习 2022-08-19 15:44:28

    【更新问题为】:请问 IRL 通常需要 RL in the loop, MDP solver,每次都正向求解 RL,导致 IRL 效率可能不高,有什么推荐的解决方案吗?请问老师对逆向最优控制和模仿学习的联系有什么看法吗?非常感谢!

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • KRHKK
    KRHKK 回复
    H hwb 2022-08-19 15:33:31

    请问: 在 ActorCritic 类型算法中,可以使用模仿学习进行策略(Actor)的初始化,但是该如何对评估(Critic)进行初始化,而可以避免离线评估的高估问题,以及保证后续脱离专家后的训练可以保持稳定呢?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • KRHKK
    KRHKK 回复
    dd dd 2022-08-19 15:05:04

    想请教一下老师两者的区别与联系

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • shakefool 回复

    老师好,请问一下基于模型的强化学习,和规划类搜索类(例如蒙特卡洛树搜索)的区别和联系?

  • Jasmine
    Jasmine 回复

    嗯,老师,我是做人的情感心理行为决策的序列仿真问题,所以借鉴情感心理行为决策的分析模式(多用线性方法,但有非常丰富成熟的理论框架,并且预测力比较强),把这套模式使用到 RL 框架中,可以用各种因素去模拟人的 reward 并用 reward 和人与人的博弈去预测行为的问题。把两个学科的分析方法结合起来。

  • 蝶化龙 回复

    能够用强化学习实现的是不是用别的方法也可以实现?比如用强化学习能解决的问题是不是 RNN 都可以解决。那么用强化学习的意义在哪呢?

  • 卡面管 回复
    当学到的环境模型是白盒模型时,MBRL可以利用控制理论去做planning,这样的MBRL和最优控制的本质是很相似的,请问老师,它们之间的侧重点是什么?
  • xc235 回复

    老师您好,请问你们之前的工作中,环境模型的学习的 state 和环境学好之后,用于 RL 训练的 state 是一样的吗?

  • Zxy
    Zxy 回复

    老师,您好!请问,专家数据来源于哪里呢?专家的策略就一定正确吗?

  • fly 回复

    请问老师非平稳环境如何做 model-base

  • 奇点 回复
    随风 随风 2022-08-19 16:11:08
    请问老师,模仿学习与强化学习有何关联,将模仿学习与强化学习结合能否实现比深度强化学习更好的效果?非常感谢

    我个人的观点,俞杨老师把模仿学习的分成三类,在逆强化学习与对抗逆强化学习中,强化学习的角色就是针对恢复的“奖励信号”学习最优策略,这类算法里面包含了一个 RL 过程;第二个问题,经典模仿学习认为专家策略为最优(也有从次优专家,用一些数据 Ranking,置信),所以经典模仿学习(在以回报为评价标准的时候)不会超过专家。
    我认为正如一个人类小孩在学习过程中(期间只有老师和小孩与环境),可以分为模仿,被指正,总结经验泛化。

  • 时比业 回复

    老师您好,Q-plan 与 Q-learning 各自的应用范围是什么?
    在哪些情况下应用 Q-plan 有优势?

  • 未名 回复

    老师您好,基于模型的强化学习和控制领域的模型预测控制(MPC)有何异同?基于模型的强化学习是否可以看作模型学习得很好的、实时计算很快的模型预测控制?

  • vinbo
    vinbo 回复

    请问一下从看视频模仿学习是怎么实现的呢?

  • 奇点 回复

    老师好,我想问的是国内模仿学习后面专业对口的工作有哪些?
    我本人是对模仿学习是非常感兴趣的,自己跟着伯克利 Abbeel 等教授以及斯坦福一些教授的主页学了一年的时间,有了一些 RL,DL,凸优化的基础,但目前还没有产出,计划再拼一年,所以现在为自己后面实在不适合科研之路谋条工作的出路。
    谢谢老师!

  • qazcy1983
    qazcy1983 回复

    老师好!想请问一下,模仿学习和 offline 强化学习的联系和区别是什么?

  • vinbo
    vinbo 回复

    能再解释一下 inverse dynamic model 怎么得到 action 的么?

  • 随风
    随风 回复
    请问老师,模仿学习与强化学习有何关联,将模仿学习与强化学习结合能否实现比深度强化学习更好的效果?非常感谢
  • Jasmine
    Jasmine 回复

    也就是说,S,S'来预测 a 的是可行的啊。有监督数据就可以做到。难点在于如果我们无法掌握所有的状态信息,而且状态的转换是高度的离散不规律的,方差很大的。另外 reward 的建模时候也是只有部分信息,还有很多信息特征不知道的情况。就更难了

  • lujie 回复

    请问老师,用模仿学习方法训练出来的智能体能够超过现有专家的表现吗?

  • 云荒之火 回复

    老师您好,请问逆向强化学习一般用来解决哪些问题?跟逆向优化的联系和区别在哪?

  • siyoung
    siyoung 回复

    感谢老师的分享!在现实世界收集的数据即使是专家数据也可能并不完美,往往存在噪声,最近兴起的因果模仿学习旨在利用因果推理消除噪声对策略学习的影响,请问老师如何看待这一类工作或怎么看待潜在噪声对策略模仿的影响?

  • lynn 回复
    R Rye 2022-08-19 15:48:56

    感觉模仿学习会和迁移学习的思想很类似,请问老师可以说说他们之间的区别和联系吗

    迁移学习是在不同任务上的,是这么理解吗?

  • lynn 回复

    怎么理解 copy distribution 跟 motivation 的关系?

  • Rye 回复

    感觉模仿学习会和迁移学习的思想很类似,请问老师可以说说他们之间的区别和联系吗

  • 我爱学习 回复
    我爱学习 2022-08-19 15:40:20

    请问逆强化学习属于行为克隆、学徒学习、基于分布匹配的 GAIL 三类中的学徒学习吗?IRL 通常需要 RL in the loop, MDP solver,每次都正向求解 RL,导致 IRL 效率可能不高,有什么推荐的解决方案吗?请问老师对逆向最优控制和模仿学习的联系有什么看法吗?非常感谢!

    【更新问题为】:请问 IRL 通常需要 RL in the loop, MDP solver,每次都正向求解 RL,导致 IRL 效率可能不高,有什么推荐的解决方案吗?请问老师对逆向最优控制和模仿学习的联系有什么看法吗?非常感谢!

  • 我爱学习 回复

    请问逆强化学习属于行为克隆、学徒学习、基于分布匹配的 GAIL 三类中的学徒学习吗?IRL 通常需要 RL in the loop, MDP solver,每次都正向求解 RL,导致 IRL 效率可能不高,有什么推荐的解决方案吗?请问老师对逆向最优控制和模仿学习的联系有什么看法吗?非常感谢!

  • lynn 回复

    请问老师如何看待 intrinsically motivated 强化学习?

  • hwb 回复

    请问: 在 ActorCritic 类型算法中,可以使用模仿学习进行策略(Actor)的初始化,但是该如何对评估(Critic)进行初始化,而可以避免离线评估的高估问题,以及保证后续脱离专家后的训练可以保持稳定呢?

  • 馍馍呜 回复

    请问模仿学习是不是婴儿阶段的强化学习?

  • LiuJ 回复

    请问老师,您认为强化学习在机器人领域有什么好的发展前景或者说展望吗?

  • Jasmine
    Jasmine 回复
    Jasmine Jasmine 2022-08-19 15:12:48

    RL 中策略的改变,数据分布就发生了变化。这个数据分布指的是构成数据的各种因素组成的协方差矩阵发生了改变么?准确来说,如果经过旋转之后,协方差矩阵转化成主成分之后,主成分的方差发生了改变?比如有些成分的方差是不变的,有些成分的方差发生了改变么?除此之外,还有复合误差还包括积累误差?

    相当于各成分之间的权重发生了变化。

  • Jasmine
    Jasmine 回复

    RL 中策略的改变,数据分布就发生了变化。这个数据分布指的是构成数据的各种因素组成的协方差矩阵发生了改变么?准确来说,如果经过旋转之后,协方差矩阵转化成主成分之后,主成分的方差发生了改变?比如有些成分的方差是不变的,有些成分的方差发生了改变么?除此之外,还有复合误差还包括积累误差?

  • dd
    dd 回复
    dd dd 2022-08-19 14:58:55

    老师您好,看到模仿学习其实可以看作是监督学习近似人类的演示数据,这是否和离线强化学习的思想是一致的?先利用离线的专家数据学到一定的策略,再通过强化学习进行提升

    想请教一下老师两者的区别与联系

  • dd
    dd 回复

    老师您好,看到模仿学习其实可以看作是监督学习近似人类的演示数据,这是否和离线强化学习的思想是一致的?先利用离线的专家数据学到一定的策略,再通过强化学习进行提升

  • Jasmine
    Jasmine 回复

    好像就是在自监督学习那里

  • 随风
    随风 回复
    老师您好,看到监督学习和无监督学习有重叠部分,有没有算法既是监督学习又是非监督学习呢,以及该如何区分它们?
  • Jasmine
    Jasmine 回复

    VAE 的自监督方法,编码器主要是为了降低维度的目标。那么这些低纬度之间的是相互独立的,不存在协方差信息的吧?因为原始数据是高维的,一般还是存在协方差信息的,协方差矩阵中,除了对角线之外协方差往往都不是 0.

  • vinbo
    vinbo 回复

    请问监督学习、非监督学习,强化学习那三个圈儿的其他重叠部分都分别代表什么算法?

  • lynn 回复

    第一天实践课里的 bahavioral cloning 属于模仿学习吗?

  • 自动化所王梓薏
    自动化所王梓薏 回复
    老师您好,我follow模仿学习大概到2020年,当时主流是GAIL及其变体,请问近两年有没有新的有影响力的模型出现,或者GAIL目前应用到什么程度了呢?