RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
评论(10)
请
登录后发表观点
- 请问老师,GPT系列工作是累计训练的吗? 会不会出现忘记之前训练的能力呢?
- 老师好,我自己看论文的时候觉得prompt 学习和 instruct 学习这两者的边界非常模糊。而且在 instructGPT 论文中,训练过程的输入,也就是提问或者指令,都被称为 prompt being sampled。所以想问一下老师怎么去理解这两者呢?
prompt-based 可以理解为,template sample 是引导模型,或则说是 search,可以在已经训练好的,也可以继续训练,就是所谓的 prompt-tuning;而,instruction turning 是做对齐,实际上是将各种任务,去训练引导对齐到训练任务到 groundtruth target,还是不同的
- 老师好,我自己看论文的时候觉得prompt 学习和 instruct 学习这两者的边界非常模糊。而且在 instructGPT 论文中,训练过程的输入,也就是提问或者指令,都被称为 prompt being sampled。所以想问一下老师怎么去理解这两者呢?
-
说白了,我觉得,这个 ChatGPT 不会逃离之前的对话系统框架,只是整个过程思路被扩展开来,讲 DL 和 RL 通过基础模型来训练,并且整个流程整合
-
而且这种对话最终模块,估计是和整个对话过程的流水线中,在大的 RL 框架下执行训练的
-
按照我的理解,这个多轮对话,是有个对话追踪队列,这个队列在整个 session 中存在的,ChatGPT 应该也有想过机制设计,甚至具备记忆功能,但是估计也是通过神经网络来实现的
-
因为以前自己研究实现对话系统的时候,多轮对话是个问题
-
或者说如果我和 ChatGPT 交流了很多轮候,比如 100 轮,101 谈到第 1 轮提到的,他还能正常工作吗
-
ChatGPT 如何实现多轮对话的,是否有记忆功能?多轮对话在我看来很难实现。