RLChina RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。 发布于 2023-03-09 17:32:02 专题报告六:基于大语言模型的开放世界智能决策 课程学习 浏览 (1000) 点赞 (1) 收藏 评论(7) 请 登录后发表观点 sheldon123z 2023-03-16 20:57:43 回复 请问老师多智能体强化学习算法的训练,比如 HATRPO 的硬件基础是怎么样的 N nico 2023-03-16 20:56:59 回复 请问老师 RL 与 LLM 的结合会不会把未来的研究推向仅有工程而没有理论创新 N nico 2023-03-16 20:55:48 回复 请问老师您讲的 PBRL 是指什么 P paris kang 2023-03-16 20:54:50 回复 请问在对齐环节有什么方法既能对齐人类意识而不影响模型性能(降低对齐税) C coder_2021 2023-03-16 20:41:54 回复 老师,请问通过对 ChatGPT 等模型进行 prompt 会成为以后自然语言处理任务的主流吗 P paris kang 2023-03-16 20:33:13 回复 请问 offline RL 如何与 LLM 结合,未来有何趋势 番 番茄 2023-03-16 20:11:03 回复 老师您好!现在的模型训练是黑箱吗? 到底啦