-
这几天听各位老师的课都非常精彩,但是有个困惑,大家都在讨论 GPT 模型的决策能力。我们都知道 GPT 模型是做语言模型的,确实不擅长决策,今天测试 GPT4,在推理和决策方面比 3.5 已经强大了很多,但依旧不是完全不会出错。但换一个角度思考,人类大脑本身语言艺术和计算决策也是不同大脑负责的,GPT 擅长的是 NLP,如果已经可以很清晰的理解问题,那就直接调用已经有的算法就好了,比如 GPT 发现在下围棋,那就交给 alphaGo 即可,没必要让 GPT 做个全能的 AI。不知道老师怎么想?
语言是人类思维的一个载体,语言表达的内容,其实有相当一部分与决策有关。语言诞生的目的,是原始人类把捕猎、救援等关键信息传递给队友,这些信息之所以关键,通常都跟决策有关。所以自然大家会关注 GPT 生成语言的逻辑性、推力能力等等。调用其他模型/API 去完成任务,也是下一步大模型的一个发展方向。
-
在说非专家动作配非专家行为其实效果还行的那个实验里,是否能说明对于 offline rl 而言,策略的重要性 比 在给定策略下所遇到的状态分布 更重要?
说明我们对数据的选择要针对策略来进行
-
俞扬老师您好,我想请问一下您如何看待 diffusion 模型和强化学习的结合。diffusion 也是一个随机过程,这一点和强化学习不谋而合,我们能否通过 diffusion 算法去生成行为呢?
-
这几天听各位老师的课都非常精彩,但是有个困惑,大家都在讨论 GPT 模型的决策能力。我们都知道 GPT 模型是做语言模型的,确实不擅长决策,今天测试 GPT4,在推理和决策方面比 3.5 已经强大了很多,但依旧不是完全不会出错。但换一个角度思考,人类大脑本身语言艺术和计算决策也是不同大脑负责的,GPT 擅长的是 NLP,如果已经可以很清晰的理解问题,那就直接调用已经有的算法就好了,比如 GPT 发现在下围棋,那就交给 alphaGo 即可,没必要让 GPT 做个全能的 AI。不知道老师怎么想?
- 在rl里面是否会出现如chatGPT、GPT-4类似的大模型一统所有benchmark?使得时序差分类的方法被时代淘汰?
-
在说非专家动作配非专家行为其实效果还行的那个实验里,是否能说明对于 offline rl 而言,策略的重要性 比 在给定策略下所遇到的状态分布 更重要?
- 老师,请问老师如何看待gpt4,对未来强化学习的发展会产生什么影响
-
俞扬老师您好,我想请问一下您如何看待 diffusion 模型和强化学习的结合。diffusion 也是一个随机过程,这一点和强化学习不谋而合,我们能否通过 diffusion 算法去生成行为呢?
-
欢迎大家留言提问
RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
评论(11)
请
登录后发表观点