RLChina RLChina 是由国内外强化学习学者联合发起的民间学术组织，主要活动包括举办强化学习线上公开课、强化学习线上研讨会等，旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。

发布于 2022-09-01 16:32:11

圆桌论道 | 9月3日 WAIC AI 开发者日——决策智能 Workshop 直播

学术活动

浏览 (2113) 点赞收藏

L

lan 2022-09-03 11:40:46 回复

这个游戏的状态观测里会包含哪些信息呢？
ClaireGl 2022-09-03 11:31:31 回复

策略蒸馏具体是什么概念？需要有哪些注意的地方？有哪些缺点？
薛

薛定谔的神经网络 2022-09-03 10:56:35 回复

这种竞争类的游戏感觉会有中 global 的最优策略，那对于那种没有全局最优策略的多智能体游戏怎么处理呢
ClaireGl 2022-09-03 10:43:17 回复

老师好！请问基于模型的算法长时间不收敛应该从哪方面考虑？
qazcy1983 2022-09-03 10:29:25 回复

老师好！请问一下，用 RL 解决组合优化问题比用演化计算的方法求解有什么优势吗？另外，对于神经网络结构搜索或者其他超参数的搜索，用 RL 方法能比 gradient-based 类（DARTS）方法有优势吗？
Jasmine 2022-09-03 09:56:48 回复

我觉得现在机器学习有个问题，就是太黑箱化操作，希望用大数据进行暴力求解，但是忽略关注各种因素之间的因果关系，构建 DAG 图的问题。在统计估计中，数据规模只是一个相对次要的因素，最重要的因素是 DAG 图如何确定，增加节点，减少节点，节点之间的关系等等，才会更贴近现实并提供更准确的求解方案。
L

LiuJ 2022-09-03 09:22:33 回复

你好，老师，我想问一下，我们在搭建强化学习的 agent 决策策略模型时，它的神经网络的隐藏层以及神经元的个数是怎么确定的呢？只能一个个尝试，然后根据结果选择吗？此外，除了深度神经网络模型，还有其他的模型可以作为决策系统的模型吗？
薛

薛定谔的神经网络 2022-09-03 09:22:00 回复

请问这类决策问题是在线的形式嘛（算法与用户交互然后同时更新），然后正好用 A3C 这种算法，SAC 这种能用到嘛
Jasmine 2022-09-03 09:18:07 回复

我之前还有点疑惑 RL 和 RNN LSTM 有什么区别，现在觉得是不是区别就在于 RL 中有个决策优化的环节，但是 RNN LSTM 仅仅是一种监督学习，并不包含优化过程。