RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

专题报告二:从生成式大模型到决策式大模型

评论(5)
  • Willing Star
    Willing Star 回复

    谢谢张老师的回答。ChatGPT 的爆火让大家看到大模型似乎是一条通向 AGI 的大道,但是作为 RL 的研究者,我还是对把大模型 +RL 作为我的研究方向存在顾虑。我之前认为 DT 类决策大模型不算 RL,只是一种模仿学习,Gato 虽然能做很多任务但无非是对环境学习了表征。但听了老师的回答我有了新的理解,再次感谢张老师。
    最后分享一下之前见到的相关论文库。https://github.com/YaoMarkMu/Awesome-Pretrained-RL

  • Willing Star
    Willing Star 回复

    张老师好,现在的 decision transformer 类研究的预训练是用序列自回归,训练需要专家轨迹。请问使用传统无需专家轨迹的 RL 作为决策大模型预训练的方法是否有可行性?谢谢老师。

  • Willing Star
    Willing Star 回复

    张老师好,第二个问题是现在决策大模型的参数量是什么量级,想要进行相关方向的研究需要多少计算资源,高校研究是否有相关财力?另外演讲中将决策大模型用在实体机器狗上,请问计算的实时性如何,会不会因为模型参数过大导致无法进行实时控制?

  • Willing Star
    Willing Star 回复

    张老师好,请问您认为未来这类利用 transformer 对 MDP 序列建模的决策大模型会代替传统的基于时序差分的 RL 成为研究和应用的主流吗?谢谢张老师。

  • 强风 回复
    老师好,为什么ChatGPT可以非常自然地进行多轮对话并且记住上下文的呢?想听一下张老师对这方面的想法,谢谢