RLChina RLChina 是由国内外强化学习学者联合发起的民间学术组织，主要活动包括举办强化学习线上公开课、强化学习线上研讨会等，旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。

发布于 2022-08-09 12:51:39

专题报告四：决策大模型

课程学习

C 我

浏览 (2712) 点赞 (7) 收藏

Jun Wang 汪军 2022-08-23 17:38:03 回复

时时比业 2022-08-23 16:17:59

老师，Neural machine translation 中，可以引入辅助神经网络来减少训练次数吗？谢谢

是的更容易了。
曾勇程+中科院自动化所 2022-08-23 17:37:39 回复

T tzf 2022-08-23 16:29:53

请问老师，如何将 RL 与 word embedding 或者 word alignment 问题结合起来，将这些问题转为序列决策过程？主要是这个状态转移过程，想请老师点播一下，谢谢老师！谢谢主持人！

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com
曾勇程+中科院自动化所 2022-08-23 17:37:30 回复

 修慧 2022-08-23 16:33:53

汪老师您好，我想请教一下用transformoer来做multi-task DRL的问题，是否需要将问题建模成GNN的形式，因为我看一些相关文章里都提到该问题建模成GNN的形式。谢谢汪老师~

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com
曾勇程+中科院自动化所 2022-08-23 17:37:21 回复

C chbloom 2022-08-23 16:12:17

请问老师，贝叶斯和RL的研究分为几类呢？贝叶斯和RL的关系是什么？最近前沿有什么进展呢？感谢老师

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com
Jun Wang 汪军 2022-08-23 17:36:46 回复

F fendoudaoliming 2022-08-23 17:06:39

请问老师，哪些强化学习算法属于严格的离线强化学习呢，是否可以分享一下强化学习如何与 GNN 更好的结合？谢谢老师！

CQL 等等
Jun Wang 汪军 2022-08-23 17:36:19 回复

 Nope10010 2022-08-23 17:22:45

汪老师好，请问您觉得决策大模型又可能实现多模态与决策的互相转换嘛，例如模型能将决策映射到自然语言提高决策的解释性，或者从自然语言映射到决策去听懂人类的指示。

可以的。
Nope10010 2022-08-23 17:22:45 回复

汪老师好，请问您觉得决策大模型又可能实现多模态与决策的互相转换嘛，例如模型能将决策映射到自然语言提高决策的解释性，或者从自然语言映射到决策去听懂人类的指示。
奔

奔跑 2022-08-23 17:12:15 回复

请问老师，将transformer 架构引入马尔可夫结构模型是否可行，能否提升模型的效果，感谢老师！
T

tzf 2022-08-23 17:10:16 回复

老师好！请问能再介绍一下 off-policy 与 offline 的区别嘛？我看 ppt 上展示的区别是：是否智能体在学习时与环境有交互，但从两个图中，我没有理解到这个区别
F

fendoudaoliming 2022-08-23 17:06:39 回复

请问老师，哪些强化学习算法属于严格的离线强化学习呢，是否可以分享一下强化学习如何与 GNN 更好的结合？谢谢老师！
时

时比业 2022-08-23 17:01:47 回复

老师，所以的离线强化学习，是不是，都可以使用预训练模型？谢谢。
学

学习贝叶斯 2022-08-23 16:46:25 回复

请问老师可以分享一下贝叶斯学习、对比学习、强化学习如何更好的结合，或者未来的强化学习和贝叶斯结合的研究点、或者现在没有解决的强化学习和贝叶斯的研究问题吗？谢谢汪老师！
修慧 2022-08-23 16:33:53 回复

汪老师您好，我想请教一下用transformoer来做multi-task DRL的问题，是否需要将问题建模成GNN的形式，因为我看一些相关文章里都提到该问题建模成GNN的形式。谢谢汪老师~
奔

奔跑 2022-08-23 16:32:45 回复

请问老师，基于注意力机制的循环神经网络和transformer相比，哪一种架构效果更好呢，transformer 具体可以应用在哪些任务中，感谢老师。
T

tzf 2022-08-23 16:29:53 回复

请问老师，如何将 RL 与 word embedding 或者 word alignment 问题结合起来，将这些问题转为序列决策过程？主要是这个状态转移过程，想请老师点播一下，谢谢老师！谢谢主持人！
时

时比业 2022-08-23 16:17:59 回复

老师，Neural machine translation 中，可以引入辅助神经网络来减少训练次数吗？谢谢
C

chbloom 2022-08-23 16:12:17 回复

请问老师，贝叶斯和RL的研究分为几类呢？贝叶斯和RL的关系是什么？最近前沿有什么进展呢？感谢老师
C

chbloom 2022-08-23 16:08:01 回复

决策大模型的“大”指的是什么？怎样的规模才算大呢？
C

chbloom 2022-08-23 16:07:27 回复

transformer在Noisy channel models的基础上有做了哪些改进？为什么要做这些改进呢？
奔

奔跑 2022-08-23 16:02:34 回复

老师您好，请问一下，如何为神经网络机器翻译任务配置编码器和解码器模型，用于自然语言处理的编码解码器有哪几种类型，以及编码解码现在遇到的挑战有哪些，感谢老师！
时

时比业 2022-08-23 15:30:50 回复

老师，请问一下，Noisy channel models 可以直接用马尔可夫模型代替使用吗？谢谢