RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

专题报告六:基于大语言模型的开放世界智能决策

评论(7)
  • sheldon123z
    sheldon123z 回复

    请问老师多智能体强化学习算法的训练,比如 HATRPO 的硬件基础是怎么样的

  • nico 回复

    请问老师 RL 与 LLM 的结合会不会把未来的研究推向仅有工程而没有理论创新

  • nico 回复

    请问老师您讲的 PBRL 是指什么

  • paris kang 回复

    请问在对齐环节有什么方法既能对齐人类意识而不影响模型性能(降低对齐税)

  • coder_2021 回复

    老师,请问通过对 ChatGPT 等模型进行 prompt 会成为以后自然语言处理任务的主流吗

  • paris kang 回复

    请问 offline RL 如何与 LLM 结合,未来有何趋势

  • 番茄 回复
    老师您好!现在的模型训练是黑箱吗?