RLChina RLChina 是由国内外强化学习学者联合发起的民间学术组织，主要活动包括举办强化学习线上公开课、强化学习线上研讨会等，旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。

发布于 2022-08-09 11:44:30

理论课五：深度强化学习

课程学习

浏览 (1283) 点赞 (7) 收藏

KRHKK 2022-08-19 22:02:59 回复

S shylock 2022-08-19 09:17:43

老师，您好。如我们所知的，奖励函数的设计对于强化学习 agent 训练非常重要，稀疏奖励等情形很大程度上限制了 agent 的训练速度，那么当前研究种关于奖励函数的设计有什么系统性的方法吗，还是说现在仍然停留在一个经验试错的阶段？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
KRHKK 2022-08-19 22:02:51 回复

L lujie 2022-08-19 09:09:28

请问老师，强化学习方法在非深度 RL 的情况下，其收敛性是有理论证明的。而在深度强化学习的情况下，当前其收敛性是否有理论证明，或者我们如何保证所训练得到的深度强化学习是已经收敛到最优的情况（尤其对于大规模的问题上）。

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
KRHKK 2022-08-19 22:02:23 回复

Y YYL 2022-08-19 00:04:30

老师好，看到您要介绍很多经典的深度强化学习算法，但是它们可能分别适用于离散或者连续的环境，若是在同时具有离散和连续动作状态空间的应用场景下，有哪些比较好的解决办法或者算法吗？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
Alick 2022-08-19 11:51:05 回复

请问老师，自动驾驶问题只有左转右转直行，用哪个算法更好呢？
汪永毅 2022-08-19 11:50:23 回复

老师您好，我想问一下ddpg的噪声方差如何设置，可否自适应调整
J

Jiang 2022-08-19 11:50:06 回复

老师您好，限制某些条件下，在很多领域使用硬更新和软更新性能上差别不大，所以硬更新和软更新有什么深层次的联系么？
binyu19 2022-08-19 11:49:40 回复

请问老师PPO这类算法是否可以用到自动驾驶车辆的换道决策的问题中呢？
qazcy1983 2022-08-19 11:49:23 回复

老师好，请问一下，对于概率分布型的 DQN，比如 c51 类的方法，是否比传统 DQN 的方法好呢？
时

时比业 2022-08-19 11:48:03 回复

老师好，设计辅助神经网络，可以解决高估问题吧
vinbo 2022-08-19 11:47:47 回复

请问 PG 一般不能收敛到全局最优的问题一般怎么分析和处理？
dd 2022-08-19 11:45:43 回复

老师您好，我想请问一下 DQN 中 off-policyness 导致的偏差是否类似与 offline RL 中的 distribution shift，是否可以借鉴 offline RL 的经验解决？另外还想问为什么 q-learning 探索不足会导致过估计？
dd 2022-08-19 11:44:16 回复

1
上善若水 2022-08-19 11:43:43 回复

老师您好，请问玻尔兹曼探索策略是对 epsilon-贪婪探索策略的改进，但是在实验中，多数情况下发现，玻尔兹曼探索策略的效果不如 epsilon-贪婪策略，这大概会是什么原因导致的呢？
shark 2022-08-19 11:35:48 回复

老师您好，请问 PPO、DDPG、TD3 这类算法在训练的时候很容易出现梯度为 0 或输出为 Nan 的情况，导致训练中止，在不改变算法的情况下，有什么方法能够避免这类情况发生么？
随风 2022-08-19 11:00:10 回复

老师您好，AC的改进算法不能提高数据利用率，但能更快训练，有没有什么好的办法可以提高数据利用率？
随风 2022-08-19 10:49:50 回复

老师您好，在学习到了AC/A2C/A3C，但还是不知道如何更好区分它们，以及它们具体应用在哪些场景比较适合？
董小达 2022-08-19 10:33:13 回复

请问老师，DQN 中的目标网络与 DDQN 中的目标网络有什么区别么
Jasmine 2022-08-19 10:27:53 回复

动作关联小的，代表稳定的因素的影响，包括固定的环境因素，方差变化和分布漂移较小，。动作关联小的，表示不稳定因素的影响，代表稳定性差的影响，方差变化和分布漂移较大。进行这样的分解，会提高因果预测精度。
L

lujie 2022-08-19 10:12:14 回复

老师您刚才讲到的非线性函数逼近器会导致 TD 学习训练不稳定，之前自己在训练时也发现当 DQN 中网络的参数改变时（learning rate, replay buffer size, etc.），其训练效果差异特别大或者突变，想问一下从超参数参数角度，平常针对这个问题有什么好的方法避免出现不稳定的情况。
X

XiulingZhang 2022-08-19 10:09:10 回复

老师您好，您刚刚很多次提到了 online、offline 以及 onpolicy、offpolicy，他们的区别是什么呢？
Jasmine 2022-08-19 09:56:19 回复

如果是 N 步策略的话，就是需要更强的相关性才能预测的更准，强调决策的实时性，也就是决策相关的各种因素的组合方式和权重，需要保持相对的稳定，才能采集到更有质量的数据样本，所以经验太老的话就不适用了？
Jasmine 2022-08-19 09:38:55 回复

仅仅从数据的打破不正常或者有害相关性问题的话，还是应该用因果推论技术，如完全离散化，一些时序相关的 LiNGam 等算法等？
R

Randy 2022-08-19 09:33:04 回复

请问老师，强化学习和深度强化学习的不同只是因为网络深度不同吗？
Jasmine 2022-08-19 09:31:39 回复

TDlearning 的方法中 Q TARGET 和 Q 相关性强的问题可以通过控制变量法来实现分离吧？通过控制上一时刻 Q 的方法。序贯决策的相关性强的问题也可以通过控制变量法来实现。数据分布的明显变化问题是我觉得 Q 方法尤其是 TD 方法本质上是把长片段分割成了小片段。本身破坏了时间序列导致的？可以借助具体领域的因果推论方法来提高预测精度？
R

Rye 2022-08-19 09:23:35 回复

请问老师，DQN输入为图像时，Q网络深起来有的时候不收敛。如果发现训练时模型不收敛的话，该按照怎样的顺序对哪些方面进行检查呢（比如说是该检查奖励函数的设计是否合理，还是先检查Q网络构建是否合理等），谢谢老师
上善若水 2022-08-19 09:23:35 回复

老师您好，刚刚学习强化学习，对这个状态空间和动作空间的维度有点疑惑，不知道空间的维度是如何定义的，我在看星际争霸 II 返回的状态 dim，单个智能体的观测是 172，通过查看计算，应该是各种属性离散取值组合之和，就有点不清楚这个 dim 是如何定义计算的？
S

shylock 2022-08-19 09:17:43 回复

老师，您好。如我们所知的，奖励函数的设计对于强化学习 agent 训练非常重要，稀疏奖励等情形很大程度上限制了 agent 的训练速度，那么当前研究种关于奖励函数的设计有什么系统性的方法吗，还是说现在仍然停留在一个经验试错的阶段？
L

lujie 2022-08-19 09:09:28 回复

请问老师，强化学习方法在非深度 RL 的情况下，其收敛性是有理论证明的。而在深度强化学习的情况下，当前其收敛性是否有理论证明，或者我们如何保证所训练得到的深度强化学习是已经收敛到最优的情况（尤其对于大规模的问题上）。
Y

YYL 2022-08-19 00:04:30 回复

老师好，看到您要介绍很多经典的深度强化学习算法，但是它们可能分别适用于离散或者连续的环境，若是在同时具有离散和连续动作状态空间的应用场景下，有哪些比较好的解决办法或者算法吗？