RLChina RLChina 是由国内外强化学习学者联合发起的民间学术组织，主要活动包括举办强化学习线上公开课、强化学习线上研讨会等，旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。

发布于 2023-03-09 17:06:10

专题报告二：从生成式大模型到决策式大模型

水区

浏览 (2196) 点赞收藏

Willing Star 2023-03-14 20:15:07 回复

谢谢张老师的回答。ChatGPT 的爆火让大家看到大模型似乎是一条通向 AGI 的大道，但是作为 RL 的研究者，我还是对把大模型 +RL 作为我的研究方向存在顾虑。我之前认为 DT 类决策大模型不算 RL，只是一种模仿学习，Gato 虽然能做很多任务但无非是对环境学习了表征。但听了老师的回答我有了新的理解，再次感谢张老师。
最后分享一下之前见到的相关论文库。https://github.com/YaoMarkMu/Awesome-Pretrained-RL
Willing Star 2023-03-14 19:57:31 回复

张老师好，现在的 decision transformer 类研究的预训练是用序列自回归，训练需要专家轨迹。请问使用传统无需专家轨迹的 RL 作为决策大模型预训练的方法是否有可行性？谢谢老师。
Willing Star 2023-03-14 19:52:38 回复

张老师好，第二个问题是现在决策大模型的参数量是什么量级，想要进行相关方向的研究需要多少计算资源，高校研究是否有相关财力？另外演讲中将决策大模型用在实体机器狗上，请问计算的实时性如何，会不会因为模型参数过大导致无法进行实时控制？
Willing Star 2023-03-14 19:48:52 回复

张老师好，请问您认为未来这类利用 transformer 对 MDP 序列建模的决策大模型会代替传统的基于时序差分的 RL 成为研究和应用的主流吗？谢谢张老师。
强

强风 2023-03-14 19:28:43 回复

老师好，为什么ChatGPT可以非常自然地进行多轮对话并且记住上下文的呢？想听一下张老师对这方面的想法，谢谢