RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

专题报告三:强化学习与语言大模型的一些共通点

评论(11)
  • eyounx 回复
    B BAI 2023-03-15 20:04:25

    这几天听各位老师的课都非常精彩,但是有个困惑,大家都在讨论 GPT 模型的决策能力。我们都知道 GPT 模型是做语言模型的,确实不擅长决策,今天测试 GPT4,在推理和决策方面比 3.5 已经强大了很多,但依旧不是完全不会出错。但换一个角度思考,人类大脑本身语言艺术和计算决策也是不同大脑负责的,GPT 擅长的是 NLP,如果已经可以很清晰的理解问题,那就直接调用已经有的算法就好了,比如 GPT 发现在下围棋,那就交给 alphaGo 即可,没必要让 GPT 做个全能的 AI。不知道老师怎么想?

    语言是人类思维的一个载体,语言表达的内容,其实有相当一部分与决策有关。语言诞生的目的,是原始人类把捕猎、救援等关键信息传递给队友,这些信息之所以关键,通常都跟决策有关。所以自然大家会关注 GPT 生成语言的逻辑性、推力能力等等。调用其他模型/API 去完成任务,也是下一步大模型的一个发展方向。

  • eyounx 回复
    C chris jina 2023-03-15 19:53:27

    在说非专家动作配非专家行为其实效果还行的那个实验里,是否能说明对于 offline rl 而言,策略的重要性 比 在给定策略下所遇到的状态分布 更重要?

    说明我们对数据的选择要针对策略来进行

  • eyounx 回复
    G GxxY 2023-03-15 19:52:50
    老师,请问老师如何看待gpt4,对未来强化学习的发展会产生什么影响

    GPT 系列模型会让领域学者对大模型、语言 +RL 等方向做更多的探索。

  • eyounx 回复
    DrDoggo DrDoggo 2023-03-15 19:24:17

    俞扬老师您好,我想请问一下您如何看待 diffusion 模型和强化学习的结合。diffusion 也是一个随机过程,这一点和强化学习不谋而合,我们能否通过 diffusion 算法去生成行为呢?

  • eyounx 回复
    Y yuanh 2023-03-15 19:57:30
    在rl里面是否会出现如chatGPT、GPT-4类似的大模型一统所有benchmark?使得时序差分类的方法被时代淘汰?

    针对服务机器人等具体的领域,会出现预训练模型。更通用的,目前看来还没有这个迹象,RL 领域的数据并非可以公开大量获得,且不同领域的数据差距巨大。对于人类而言,视觉和语言能力是普遍具备的,但是要成为具体领域的专家,需要长时间的学习。

  • BAI 回复

    这几天听各位老师的课都非常精彩,但是有个困惑,大家都在讨论 GPT 模型的决策能力。我们都知道 GPT 模型是做语言模型的,确实不擅长决策,今天测试 GPT4,在推理和决策方面比 3.5 已经强大了很多,但依旧不是完全不会出错。但换一个角度思考,人类大脑本身语言艺术和计算决策也是不同大脑负责的,GPT 擅长的是 NLP,如果已经可以很清晰的理解问题,那就直接调用已经有的算法就好了,比如 GPT 发现在下围棋,那就交给 alphaGo 即可,没必要让 GPT 做个全能的 AI。不知道老师怎么想?

  • yuanh 回复
    在rl里面是否会出现如chatGPT、GPT-4类似的大模型一统所有benchmark?使得时序差分类的方法被时代淘汰?
  • chris jina 回复

    在说非专家动作配非专家行为其实效果还行的那个实验里,是否能说明对于 offline rl 而言,策略的重要性 比 在给定策略下所遇到的状态分布 更重要?

  • GxxY 回复
    老师,请问老师如何看待gpt4,对未来强化学习的发展会产生什么影响
  • DrDoggo
    DrDoggo 回复

    俞扬老师您好,我想请问一下您如何看待 diffusion 模型和强化学习的结合。diffusion 也是一个随机过程,这一点和强化学习不谋而合,我们能否通过 diffusion 算法去生成行为呢?

  • 孙罗洋 中科院自动化研究所

    欢迎大家留言提问