理论课四：强化学习的间接法和直接法

RLChina 2022-08-18 22:52:07 回复

D Danna2022 2022-08-18 09:44:26

请问李老师，您认为用强化学习代替传统的MPC PID等进行车辆的的操纵性或者稳定控制，这个方向可行性和意义如何呀？或者说效果怎么样？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

RLChina 2022-08-18 22:51:02 回复

L lynn 2022-08-17 22:54:46

https://arxiv.org/pdf/2203.11405.pdf 这篇文章里对自动驾驶系统加入记忆的功能，从过去的经验中学习。人和机器系统有着很大的不同，比如人的记忆对不同的内容有不同的记忆精度，记忆激活时具有联想性 associative，并且存储具有表征的恒常性等，请问老师怎么看待自动驾驶结合（更像人）的记忆系统，这会是以后的趋势吗？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

RLChina 2022-08-18 22:49:00 回复

vinbo 2022-08-18 09:23:00

请问李老师如何看待最优控制与 RL 的结合产物 ADP(adaptive/approximate dynamic programming)? ADP 有什么缺点吗？以后会成为主导趋势吗？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

赵祉瑜+中科院自动化所 2022-08-18 21:31:16 回复

D Danna2022 2022-08-18 09:44:26

请问李老师，您认为用强化学习代替传统的MPC PID等进行车辆的的操纵性或者稳定控制，这个方向可行性和意义如何呀？或者说效果怎么样？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

赵祉瑜+中科院自动化所 2022-08-18 21:30:51 回复

L lynn 2022-08-17 22:54:46

https://arxiv.org/pdf/2203.11405.pdf 这篇文章里对自动驾驶系统加入记忆的功能，从过去的经验中学习。人和机器系统有着很大的不同，比如人的记忆对不同的内容有不同的记忆精度，记忆激活时具有联想性 associative，并且存储具有表征的恒常性等，请问老师怎么看待自动驾驶结合（更像人）的记忆系统，这会是以后的趋势吗？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

赵祉瑜+中科院自动化所 2022-08-18 21:30:12 回复

vinbo 2022-08-18 09:23:00

请问李老师如何看待最优控制与 RL 的结合产物 ADP(adaptive/approximate dynamic programming)? ADP 有什么缺点吗？以后会成为主导趋势吗？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

李升波 2022-08-18 18:04:51 回复

时时比业 2022-08-18 11:05:47

老师，我们是山东老乡，为何论文强化学习应用，一般不按直接法、间接法这样分类使用？

科研过程也存在路径依赖问题。早期研究对 RL 的理解不够充分，尤其是与最优控制的关联性。例如：上个世纪 60~70 年甚至认为 RL 就是探索试错学习，80 年代 R Sutton 等人的研究改变了这一观点，他们从 TD 研究出发，慢慢建立了与 DP 的联系。很多时候，后面的研究者一般会沿用开创者的思路，形成各式各样的路径依赖，包括分类方法。随着研究工作的深入，我们也会形成全新的理解观点，用于再解释早期的方法，或者创造全新的方法。看同一问题的角度不同了，通常就会产生全新的科研创意。对于间接法和直接法的解释，具体可参考：Y Guan, S Li*, et al. Direct and indirect reinforcement learning. International Journal of Intelligent Systems, 2021, https://doi.org/10.1002/int.22466

李升波 2022-08-18 14:23:18 回复

Y yzyml 2022-08-18 09:45:39

请问老师，像自动驾驶这种没有明显回报的过程，如何设置模型的环境和回报？

自动驾驶需要设计者，依据驾驶员对性能的需求，设计 Reward 函数，包括安全性、节能性、舒适性、合规性等指标。这也是自动驾驶设计的一个难点问题，尤其是安全性的指标如何表述，是行业难题。

李升波 2022-08-18 14:20:50 回复

李升波 2022-08-18 14:18:47

对于哈密尔顿系统，存在一类保辛离散化算法，可极大提升数值求解的稳定性，是冯康先生 80 年代的工作。

近年 UC Berkeley 的 MJ，将该思想用于解释优化问题的迭代过程，给我们的一个启发是：adam 算法从某种意义上是保辛优化算法的一个特例，这是它为什么这么稳定的理论解释。

李升波 2022-08-18 14:18:47 回复

X xyhk96 2022-08-18 12:14:46

老师您好，请问您刚刚说的提高强化学习的稳定性，用的保新算法嘛，没太请听

对于哈密尔顿系统，存在一类保辛离散化算法，可极大提升数值求解的稳定性，是冯康先生 80 年代的工作。

李升波 2022-08-18 14:17:17 回复

J jerry 2022-08-18 11:45:46

老师好，请问您怎么看待强化学习的因果性。RL 可否带上一写 casuality 的因素来进一步探索动作与状态之间的联系，以建立更好的控制器。

因果关系的引入，对 RL 是一个好方向，十分值得研究的一个领域。我也没有特别思考清楚这个问题的本质，值得探索。

李升波 2022-08-18 14:15:15 回复

W wzc 2022-08-18 11:36:56

老师好。在课上介绍 baseline 方法的时候，你说 baseline 和 TD 在某种意义上等价。在昨天的课，老师介绍过 TD 方法是有偏的。然而据我所知，baseline 方法是对 policy gradient 的无偏估计。请问这边是不是有点问题？

TD 是用于更新 V 函数的，由于 bootstrapping 导致 V 函数估计有偏；baseline 是用于降低策略梯度方差的，对于梯度的估计而言无偏差。

李升波 2022-08-18 14:13:15 回复

北北派 2022-08-18 09:43:50

请问老师，是不是间接法主要是 policy-based 方法，直接法主要是 value-based 方法。

这个理解是不准确的。间接法是指采用 Bellman equation，求解该方程的方法。间接法也可以 policy-based，也可以 value-based。例如，若是求解 Bellman equation 时，只对策略进行近似，而不对 value 进行近似（使用 MC 估计），就是 policy-based 的方法。若是采用 fixed-point iteration 对 Bellman equation 进行求解，就成为 value-based 方法，例如：结合 Mann fixed-point iteration 就是一个标准的 Q-learning 方法。所以，policy-based 和 value-based 分类法，是早期对强化学习理解不充分的一个产物，不能对 RL 的算法设计产生足够的指导意义。

李升波 2022-08-18 14:08:53 回复

L LiuJ 2022-08-18 09:41:43

请问老师您觉得在机械臂控制方面，强化学习有什么好的应用前景或者方向吗？

一般来说，若是对象不复杂，维度不高，且容易建模，建议不要采用强化学习，使用传统的控制方法，比如说 MPC 或 LQ 就行。若是对象的动力学纬度高，难以建立解析化的模型，或者任务要求过于复杂，难以采用 utility function 描述，不妨尝试强化学习。

李升波 2022-08-18 14:06:33 回复

未未名 2022-08-18 09:41:45

老师您好，请问讲强化学习和最优控制相结合是否可以看作是某种意义上的可解释性强化学习？

从最优控制的角度理解强化学习，具备一定的可解释性。

李升波 2022-08-18 14:05:22 回复

摸摸鱼高手 2022-08-18 09:40:58

请问老师，Model-free 和 Model-base 的本质性区别在哪里，有没有什么直观的判断方法？

Model-based 与 model-free 两者的 critic 梯度是一样的，关键在于 Actor 梯度是否采用模型的导数信息。如果使用模型的导数信息，属于 Model-based，否则属于 model-free。使用模型的导数信息之后，将加快 RL 的收敛速度，但是收敛的策略精度，取决于模型本身的准确程度。

李升波 2022-08-18 14:03:31 回复

N NorrisZhu 2022-08-18 09:02:21

一直在学习强化学习，希望可以获得很多知识学习，也想要书！！！

感兴趣的同学关注 Springer 出版社，拟于今年年底或明天初，出版《Reinforcement learning for sequential decision and optimal control》，是研究生课程《强化学习与控制》一课的英文书籍。

vinbo 2022-08-18 13:04:10 回复

X xyhk96 2022-08-18 12:14:46

老师您好，请问您刚刚说的提高强化学习的稳定性，用的保新算法嘛，没太请听

保辛

vinbo 2022-08-18 13:04:00 回复

赵祉瑜+中科院自动化所 2022-08-18 12:04:07

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

喵喵喵？难道不是今天一个被直播回答的问题是我的吗？

X

xyhk96 2022-08-18 12:14:46 回复

老师您好，请问您刚刚说的提高强化学习的稳定性，用的保新算法嘛，没太请听

赵祉瑜+中科院自动化所 2022-08-18 12:05:28 回复

L LiuJ 2022-08-18 10:01:42

老师好，我想问一下，强化学习的决策部分一般使用神经网络来拟合，但是神经网络能够训练完成后任务效果的上限是多少呢，换句话说，神经网络的模型能否完美的表示我们的决策这个真实模型吗？我们又应该如何选择这个网络模型的结构呢？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

赵祉瑜+中科院自动化所 2022-08-18 12:04:28 回复

Y ytyin 2022-08-18 10:16:36

请问用greedy search方法是不是只能得到pure strategy的解。对于一些最优解是mixed strategy的问题我们能用什么方法解呢

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

赵祉瑜+中科院自动化所 2022-08-18 12:04:07 回复

qazcy1983 2022-08-18 10:30:38

老师好！想请问一下，是不是直接法主要是 policy-based 方法，间接法是 value-based 方法？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

llc 2022-08-18 11:49:59 回复

现在到神经网络来源于图像识别等问题，这些神经网络直接用于强化学习存在哪些问题？有哪些研究的方向？

J

jerry 2022-08-18 11:49:06 回复

J jerry 2022-08-18 11:45:46

老师好，请问您怎么看待强化学习的因果性。RL 可否带上一写 casuality 的因素来进一步探索动作与状态之间的联系，以建立更好的控制器。

比如 Causal Reinforcement Learning 或者基于 graph 的 RL

J

jerry 2022-08-18 11:45:46 回复

老师好，请问您怎么看待强化学习的因果性。RL 可否带上一写 casuality 的因素来进一步探索动作与状态之间的联系，以建立更好的控制器。

W

wzc 2022-08-18 11:36:56 回复

老师好。在课上介绍 baseline 方法的时候，你说 baseline 和 TD 在某种意义上等价。在昨天的课，老师介绍过 TD 方法是有偏的。然而据我所知，baseline 方法是对 policy gradient 的无偏估计。请问这边是不是有点问题？

HalfLarry 2022-08-18 11:35:57 回复

提问：请问当前在 RL 的实践领域，multi agent 场景下的应用是否很困难，针对这些困难有哪些解决思路？

X

xyhk96 2022-08-18 11:33:43 回复

老师您好，我想请问下，将基于数据驱动的方法和基于模型的方法相结合，有哪些优势，可以应用于解决哪些问题呢？

N

nye 2022-08-18 11:30:20 回复

老师您好，请问 RL 用于图像优化并对其进行进行分类吗，从理论角度讲可行吗？有可能提高准确率吗？

时

时比业 2022-08-18 11:05:47 回复

老师，我们是山东老乡，为何论文强化学习应用，一般不按直接法、间接法这样分类使用？

J

Jiang 2022-08-18 10:52:21 回复

老师您好，我想请问一下，直接法是经过一步步简化得来的，那我们是否可以未来一步步释放简化去针对问题得到更好的结果呢？

爱

爱学习的好好好 2022-08-18 10:49:27 回复

老师，在车联网方面，rl是否可以用于车辆间的组网呢，不同时间段的车流量的差别是否可以理解为环境的变化呢

heha 2022-08-18 10:48:34 回复

提问：请问老师例子中，stochastic Q; stochastic V; Determinstic Q; 中，stochastic 和 Determinstic 分别是指在策略近似中用的模板策略用的分别是什么呢？

zhandroid 2022-08-18 10:46:56 回复

老师您好，针对连续状态训练效果差的情况下，很多参考做法是将连续空间换成多值离散空间。如果在自动驾驶或控制领域上来说，这样做是否可行？是否会损失一部分的安全性？

vinbo 2022-08-18 10:46:41 回复

请问分析 RL 控制效果的瞬态性能有哪些方法？

seclee 2022-08-18 10:39:16 回复

老师您好，请问您提到的给 RL 系统增加滤波的设计，如果是无模型的算法，那这种滤波机制是在状态输入的地方好一点还是动作选择的地方好一点？(ps.不知道我是不是理解偏了)

qazcy1983 2022-08-18 10:30:38 回复

老师好！想请问一下，是不是直接法主要是 policy-based 方法，间接法是 value-based 方法？

Y

yzyml 2022-08-18 10:19:33 回复

请问老师，间接法对比直接法只是收敛效率上的提升吗，最终模型的性能有何差别？

Y

ytyin 2022-08-18 10:16:36 回复

请问用greedy search方法是不是只能得到pure strategy的解。对于一些最优解是mixed strategy的问题我们能用什么方法解呢

L

LiuJ 2022-08-18 10:01:42 回复

老师好，我想问一下，强化学习的决策部分一般使用神经网络来拟合，但是神经网络能够训练完成后任务效果的上限是多少呢，换句话说，神经网络的模型能否完美的表示我们的决策这个真实模型吗？我们又应该如何选择这个网络模型的结构呢？

HalfLarry 2022-08-18 09:45:47 回复

提问：在 AI 领域和在 Game Theory 领域，learning 有着不同含义，AI 注重 performance 的提升，Game Theory 注重 equilibrium 的分析，请问在当前的研究中，这两种范式是否有某些融合趋势？或者说，哪一种范式在学界/业内更受青睐？

Y

yzyml 2022-08-18 09:45:39 回复

请问老师，像自动驾驶这种没有明显回报的过程，如何设置模型的环境和回报？

J

jade 2022-08-18 09:45:39 回复

集成式决策控制和他对 RL 使用的影响能请老师细介绍下吗，

D

Danna2022 2022-08-18 09:44:26 回复

请问李老师，您认为用强化学习代替传统的MPC PID等进行车辆的的操纵性或者稳定控制，这个方向可行性和意义如何呀？或者说效果怎么样？

北

北派 2022-08-18 09:43:50 回复

请问老师，是不是间接法主要是 policy-based 方法，直接法主要是 value-based 方法。

你很特别 2022-08-18 09:43:35 回复

RL 中的 MPC 和单纯的 MPC 是同样的方法吗？它们有什么区别和联系？

未

未名 2022-08-18 09:41:45 回复

老师您好，请问讲强化学习和最优控制相结合是否可以看作是某种意义上的可解释性强化学习？

L

LiuJ 2022-08-18 09:41:43 回复

请问老师您觉得在机械臂控制方面，强化学习有什么好的应用前景或者方向吗？

摸

摸鱼高手 2022-08-18 09:40:58 回复

请问老师，Model-free 和 Model-base 的本质性区别在哪里，有没有什么直观的判断方法？