RLChina RLChina 是由国内外强化学习学者联合发起的民间学术组织，主要活动包括举办强化学习线上公开课、强化学习线上研讨会等，旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。

发布于 2023-03-09 17:19:10

专题报告三：强化学习与语言大模型的一些共通点

课程学习

浏览 (1481) 点赞 (1) 收藏

E

eyounx 2023-03-15 21:03:23 回复

B BAI 2023-03-15 20:04:25

这几天听各位老师的课都非常精彩，但是有个困惑，大家都在讨论 GPT 模型的决策能力。我们都知道 GPT 模型是做语言模型的，确实不擅长决策，今天测试 GPT4，在推理和决策方面比 3.5 已经强大了很多，但依旧不是完全不会出错。但换一个角度思考，人类大脑本身语言艺术和计算决策也是不同大脑负责的，GPT 擅长的是 NLP，如果已经可以很清晰的理解问题，那就直接调用已经有的算法就好了，比如 GPT 发现在下围棋，那就交给 alphaGo 即可，没必要让 GPT 做个全能的 AI。不知道老师怎么想？

语言是人类思维的一个载体，语言表达的内容，其实有相当一部分与决策有关。语言诞生的目的，是原始人类把捕猎、救援等关键信息传递给队友，这些信息之所以关键，通常都跟决策有关。所以自然大家会关注 GPT 生成语言的逻辑性、推力能力等等。调用其他模型/API 去完成任务，也是下一步大模型的一个发展方向。
E

eyounx 2023-03-15 20:59:15 回复

C chris jina 2023-03-15 19:53:27

在说非专家动作配非专家行为其实效果还行的那个实验里，是否能说明对于 offline rl 而言，策略的重要性比在给定策略下所遇到的状态分布更重要？

说明我们对数据的选择要针对策略来进行
E

eyounx 2023-03-15 20:58:01 回复

G GxxY 2023-03-15 19:52:50

老师，请问老师如何看待gpt4，对未来强化学习的发展会产生什么影响

GPT 系列模型会让领域学者对大模型、语言 +RL 等方向做更多的探索。
E

eyounx 2023-03-15 20:56:49 回复

 DrDoggo 2023-03-15 19:24:17

俞扬老师您好，我想请问一下您如何看待 diffusion 模型和强化学习的结合。diffusion 也是一个随机过程，这一点和强化学习不谋而合，我们能否通过 diffusion 算法去生成行为呢？

例如：https://openreview.net/forum?id=Pv1GPQzRrC8
E

eyounx 2023-03-15 20:56:05 回复

Y yuanh 2023-03-15 19:57:30

在rl里面是否会出现如chatGPT、GPT-4类似的大模型一统所有benchmark？使得时序差分类的方法被时代淘汰？

针对服务机器人等具体的领域，会出现预训练模型。更通用的，目前看来还没有这个迹象，RL 领域的数据并非可以公开大量获得，且不同领域的数据差距巨大。对于人类而言，视觉和语言能力是普遍具备的，但是要成为具体领域的专家，需要长时间的学习。
B

BAI 2023-03-15 20:04:25 回复

这几天听各位老师的课都非常精彩，但是有个困惑，大家都在讨论 GPT 模型的决策能力。我们都知道 GPT 模型是做语言模型的，确实不擅长决策，今天测试 GPT4，在推理和决策方面比 3.5 已经强大了很多，但依旧不是完全不会出错。但换一个角度思考，人类大脑本身语言艺术和计算决策也是不同大脑负责的，GPT 擅长的是 NLP，如果已经可以很清晰的理解问题，那就直接调用已经有的算法就好了，比如 GPT 发现在下围棋，那就交给 alphaGo 即可，没必要让 GPT 做个全能的 AI。不知道老师怎么想？
Y

yuanh 2023-03-15 19:57:30 回复

在rl里面是否会出现如chatGPT、GPT-4类似的大模型一统所有benchmark？使得时序差分类的方法被时代淘汰？
C

chris jina 2023-03-15 19:53:27 回复

在说非专家动作配非专家行为其实效果还行的那个实验里，是否能说明对于 offline rl 而言，策略的重要性比在给定策略下所遇到的状态分布更重要？
G

GxxY 2023-03-15 19:52:50 回复

老师，请问老师如何看待gpt4，对未来强化学习的发展会产生什么影响
DrDoggo 2023-03-15 19:24:17 回复

俞扬老师您好，我想请问一下您如何看待 diffusion 模型和强化学习的结合。diffusion 也是一个随机过程，这一点和强化学习不谋而合，我们能否通过 diffusion 算法去生成行为呢？
孙罗洋中科院自动化研究所 2023-03-15 19:12:09 回复

欢迎大家留言提问