RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

专题报告四:决策大模型

评论(21)
  • Jun Wang 汪军
    Jun Wang 汪军 回复
    时比业 2022-08-23 16:17:59

    老师,Neural machine translation 中,可以引入辅助神经网络来减少训练次数吗?谢谢

    是的更容易了。

  • 曾勇程+中科院自动化所
    T tzf 2022-08-23 16:29:53

    请问老师,如何将 RL 与 word embedding 或者 word alignment 问题结合起来,将这些问题转为序列决策过程?主要是这个状态转移过程,想请老师点播一下,谢谢老师!谢谢主持人!

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 曾勇程+中科院自动化所
    修慧 修慧 2022-08-23 16:33:53
    汪老师您好,我想请教一下用transformoer来做multi-task DRL的问题,是否需要将问题建模成GNN的形式,因为我看一些相关文章里都提到该问题建模成GNN的形式。谢谢汪老师~

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 曾勇程+中科院自动化所
    C chbloom 2022-08-23 16:12:17
    请问老师,贝叶斯和RL的研究分为几类呢?贝叶斯和RL的关系是什么?最近前沿有什么进展呢?感谢老师

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • Jun Wang 汪军
    Jun Wang 汪军 回复
    F fendoudaoliming 2022-08-23 17:06:39

    请问老师,哪些强化学习算法属于严格的离线强化学习呢,是否可以分享一下强化学习如何与 GNN 更好的结合?谢谢老师!

    CQL 等等

  • Jun Wang 汪军
    Jun Wang 汪军 回复
    Nope10010 Nope10010 2022-08-23 17:22:45

    汪老师好,请问您觉得决策大模型又可能实现多模态与决策的互相转换嘛,例如模型能将决策映射到自然语言提高决策的解释性,或者从自然语言映射到决策去听懂人类的指示。

    可以的。

  • Nope10010
    Nope10010 回复

    汪老师好,请问您觉得决策大模型又可能实现多模态与决策的互相转换嘛,例如模型能将决策映射到自然语言提高决策的解释性,或者从自然语言映射到决策去听懂人类的指示。

  • 奔跑 回复
    请问老师,将transformer 架构引入马尔可夫结构模型是否可行,能否提升模型的效果,感谢老师!
  • tzf 回复

    老师好!请问能再介绍一下 off-policy 与 offline 的区别嘛?我看 ppt 上展示的区别是:是否智能体在学习时与环境有交互,但从两个图中,我没有理解到这个区别

  • fendoudaoliming 回复

    请问老师,哪些强化学习算法属于严格的离线强化学习呢,是否可以分享一下强化学习如何与 GNN 更好的结合?谢谢老师!

  • 时比业 回复

    老师,所以的离线强化学习,是不是,都可以使用预训练模型?谢谢。

  • 学习贝叶斯 回复

    请问老师可以分享一下贝叶斯学习、对比学习、强化学习如何更好的结合,或者未来的强化学习和贝叶斯结合的研究点、或者现在没有解决的强化学习和贝叶斯的研究问题吗?谢谢汪老师!

  • 修慧
    修慧 回复
    汪老师您好,我想请教一下用transformoer来做multi-task DRL的问题,是否需要将问题建模成GNN的形式,因为我看一些相关文章里都提到该问题建模成GNN的形式。谢谢汪老师~
  • 奔跑 回复
    请问老师,基于注意力机制的循环神经网络和transformer相比,哪一种架构效果更好呢,transformer 具体可以应用在哪些任务中,感谢老师。
  • tzf 回复

    请问老师,如何将 RL 与 word embedding 或者 word alignment 问题结合起来,将这些问题转为序列决策过程?主要是这个状态转移过程,想请老师点播一下,谢谢老师!谢谢主持人!

  • 时比业 回复

    老师,Neural machine translation 中,可以引入辅助神经网络来减少训练次数吗?谢谢

  • chbloom 回复
    请问老师,贝叶斯和RL的研究分为几类呢?贝叶斯和RL的关系是什么?最近前沿有什么进展呢?感谢老师
  • chbloom 回复
    决策大模型的“大”指的是什么?怎样的规模才算大呢?
  • chbloom 回复
    transformer在Noisy channel models的基础上有做了哪些改进?为什么要做这些改进呢?
  • 奔跑 回复
    老师您好,请问一下,如何为神经网络机器翻译任务配置编码器和解码器模型,用于自然语言处理的编码解码器有哪几种类型,以及编码解码现在遇到的挑战有哪些,感谢老师!
  • 时比业 回复

    老师,请问一下,Noisy channel models 可以直接用马尔可夫模型代替使用吗?谢谢