专题报告三：模仿学习与基于模型的强化学习

KRHKK 2022-08-19 22:06:25 回复

我我爱学习 2022-08-19 15:44:28

【更新问题为】：请问 IRL 通常需要 RL in the loop, MDP solver，每次都正向求解 RL，导致 IRL 效率可能不高，有什么推荐的解决方案吗？请问老师对逆向最优控制和模仿学习的联系有什么看法吗？非常感谢！

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

KRHKK 2022-08-19 22:05:59 回复

H hwb 2022-08-19 15:33:31

请问：在 ActorCritic 类型算法中，可以使用模仿学习进行策略(Actor)的初始化，但是该如何对评估(Critic)进行初始化，而可以避免离线评估的高估问题，以及保证后续脱离专家后的训练可以保持稳定呢？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

KRHKK 2022-08-19 22:04:30 回复

dd 2022-08-19 15:05:04

想请教一下老师两者的区别与联系

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

S

shakefool 2022-08-19 17:45:01 回复

老师好，请问一下基于模型的强化学习，和规划类搜索类（例如蒙特卡洛树搜索）的区别和联系？

Jasmine 2022-08-19 17:30:47 回复

嗯，老师，我是做人的情感心理行为决策的序列仿真问题，所以借鉴情感心理行为决策的分析模式（多用线性方法，但有非常丰富成熟的理论框架，并且预测力比较强），把这套模式使用到 RL 框架中，可以用各种因素去模拟人的 reward 并用 reward 和人与人的博弈去预测行为的问题。把两个学科的分析方法结合起来。

蝶

蝶化龙 2022-08-19 17:25:08 回复

能够用强化学习实现的是不是用别的方法也可以实现？比如用强化学习能解决的问题是不是 RNN 都可以解决。那么用强化学习的意义在哪呢？

卡

卡面管 2022-08-19 17:23:04 回复

当学到的环境模型是白盒模型时，MBRL可以利用控制理论去做planning，这样的MBRL和最优控制的本质是很相似的，请问老师，它们之间的侧重点是什么？

X

xc235 2022-08-19 17:22:56 回复

老师您好，请问你们之前的工作中，环境模型的学习的 state 和环境学好之后，用于 RL 训练的 state 是一样的吗？

Zxy 2022-08-19 17:22:18 回复

老师，您好！请问，专家数据来源于哪里呢？专家的策略就一定正确吗？

F

fly 2022-08-19 17:21:48 回复

请问老师非平稳环境如何做 model-base

奇

奇点 2022-08-19 17:14:17 回复

随风 2022-08-19 16:11:08

请问老师，模仿学习与强化学习有何关联，将模仿学习与强化学习结合能否实现比深度强化学习更好的效果？非常感谢

我个人的观点，俞杨老师把模仿学习的分成三类，在逆强化学习与对抗逆强化学习中，强化学习的角色就是针对恢复的“奖励信号”学习最优策略，这类算法里面包含了一个 RL 过程；第二个问题，经典模仿学习认为专家策略为最优（也有从次优专家，用一些数据 Ranking，置信），所以经典模仿学习（在以回报为评价标准的时候）不会超过专家。
我认为正如一个人类小孩在学习过程中（期间只有老师和小孩与环境），可以分为模仿，被指正，总结经验泛化。

时

时比业 2022-08-19 17:14:10 回复

老师您好，Q-plan 与 Q-learning 各自的应用范围是什么？
在哪些情况下应用 Q-plan 有优势？

未

未名 2022-08-19 17:04:11 回复

老师您好，基于模型的强化学习和控制领域的模型预测控制（MPC）有何异同？基于模型的强化学习是否可以看作模型学习得很好的、实时计算很快的模型预测控制？

vinbo 2022-08-19 16:58:19 回复

请问一下从看视频模仿学习是怎么实现的呢？

奇

奇点 2022-08-19 16:56:52 回复

老师好，我想问的是国内模仿学习后面专业对口的工作有哪些？
我本人是对模仿学习是非常感兴趣的，自己跟着伯克利 Abbeel 等教授以及斯坦福一些教授的主页学了一年的时间，有了一些 RL，DL，凸优化的基础，但目前还没有产出，计划再拼一年，所以现在为自己后面实在不适合科研之路谋条工作的出路。
谢谢老师！

qazcy1983 2022-08-19 16:15:44 回复

老师好！想请问一下，模仿学习和 offline 强化学习的联系和区别是什么？

vinbo 2022-08-19 16:15:07 回复

能再解释一下 inverse dynamic model 怎么得到 action 的么？

随风 2022-08-19 16:11:08 回复

请问老师，模仿学习与强化学习有何关联，将模仿学习与强化学习结合能否实现比深度强化学习更好的效果？非常感谢

Jasmine 2022-08-19 16:07:09 回复

也就是说，S,S'来预测 a 的是可行的啊。有监督数据就可以做到。难点在于如果我们无法掌握所有的状态信息，而且状态的转换是高度的离散不规律的，方差很大的。另外 reward 的建模时候也是只有部分信息，还有很多信息特征不知道的情况。就更难了

L

lujie 2022-08-19 16:04:00 回复

请问老师，用模仿学习方法训练出来的智能体能够超过现有专家的表现吗？

云

云荒之火 2022-08-19 15:59:58 回复

老师您好，请问逆向强化学习一般用来解决哪些问题？跟逆向优化的联系和区别在哪？

siyoung 2022-08-19 15:54:40 回复

感谢老师的分享！在现实世界收集的数据即使是专家数据也可能并不完美，往往存在噪声，最近兴起的因果模仿学习旨在利用因果推理消除噪声对策略学习的影响，请问老师如何看待这一类工作或怎么看待潜在噪声对策略模仿的影响？

L

lynn 2022-08-19 15:50:15 回复

R Rye 2022-08-19 15:48:56

感觉模仿学习会和迁移学习的思想很类似，请问老师可以说说他们之间的区别和联系吗

迁移学习是在不同任务上的，是这么理解吗？

L

lynn 2022-08-19 15:49:02 回复

怎么理解 copy distribution 跟 motivation 的关系？

R

Rye 2022-08-19 15:48:56 回复

感觉模仿学习会和迁移学习的思想很类似，请问老师可以说说他们之间的区别和联系吗

我

我爱学习 2022-08-19 15:44:28 回复

我我爱学习 2022-08-19 15:40:20

请问逆强化学习属于行为克隆、学徒学习、基于分布匹配的 GAIL 三类中的学徒学习吗？IRL 通常需要 RL in the loop, MDP solver，每次都正向求解 RL，导致 IRL 效率可能不高，有什么推荐的解决方案吗？请问老师对逆向最优控制和模仿学习的联系有什么看法吗？非常感谢！

【更新问题为】：请问 IRL 通常需要 RL in the loop, MDP solver，每次都正向求解 RL，导致 IRL 效率可能不高，有什么推荐的解决方案吗？请问老师对逆向最优控制和模仿学习的联系有什么看法吗？非常感谢！

我

我爱学习 2022-08-19 15:40:20 回复

请问逆强化学习属于行为克隆、学徒学习、基于分布匹配的 GAIL 三类中的学徒学习吗？IRL 通常需要 RL in the loop, MDP solver，每次都正向求解 RL，导致 IRL 效率可能不高，有什么推荐的解决方案吗？请问老师对逆向最优控制和模仿学习的联系有什么看法吗？非常感谢！

L

lynn 2022-08-19 15:34:00 回复

请问老师如何看待 intrinsically motivated 强化学习？

H

hwb 2022-08-19 15:33:31 回复

请问：在 ActorCritic 类型算法中，可以使用模仿学习进行策略(Actor)的初始化，但是该如何对评估(Critic)进行初始化，而可以避免离线评估的高估问题，以及保证后续脱离专家后的训练可以保持稳定呢？

馍

馍馍呜 2022-08-19 15:21:04 回复

请问模仿学习是不是婴儿阶段的强化学习？

L

LiuJ 2022-08-19 15:21:03 回复

请问老师，您认为强化学习在机器人领域有什么好的发展前景或者说展望吗？

Jasmine 2022-08-19 15:13:23 回复

Jasmine 2022-08-19 15:12:48

RL 中策略的改变，数据分布就发生了变化。这个数据分布指的是构成数据的各种因素组成的协方差矩阵发生了改变么？准确来说，如果经过旋转之后，协方差矩阵转化成主成分之后，主成分的方差发生了改变？比如有些成分的方差是不变的，有些成分的方差发生了改变么？除此之外，还有复合误差还包括积累误差？

相当于各成分之间的权重发生了变化。

Jasmine 2022-08-19 15:12:48 回复

RL 中策略的改变，数据分布就发生了变化。这个数据分布指的是构成数据的各种因素组成的协方差矩阵发生了改变么？准确来说，如果经过旋转之后，协方差矩阵转化成主成分之后，主成分的方差发生了改变？比如有些成分的方差是不变的，有些成分的方差发生了改变么？除此之外，还有复合误差还包括积累误差？

dd 2022-08-19 15:05:04 回复