RLChina RLChina 是由国内外强化学习学者联合发起的民间学术组织，主要活动包括举办强化学习线上公开课、强化学习线上研讨会等，旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。

发布于 2023-03-09 17:08:07

实践课二：ChatGPT 技术原理和演进以及借鉴

课程学习

浏览 (1235) 点赞收藏

Atongmu 2023-03-14 20:49:40 回复

请问老师，GPT系列工作是累计训练的吗? 会不会出现忘记之前训练的能力呢?
VincentWei 2023-03-14 20:44:18 回复

薯薯条得沾冰淇淋 2023-03-14 20:34:51

老师好，我自己看论文的时候觉得prompt 学习和 instruct 学习这两者的边界非常模糊。而且在 instructGPT 论文中，训练过程的输入，也就是提问或者指令，都被称为 prompt being sampled。所以想问一下老师怎么去理解这两者呢？

为个人的想法，希望帮到你，也听听老师的解释吧
VincentWei 2023-03-14 20:43:45 回复

薯薯条得沾冰淇淋 2023-03-14 20:34:51

老师好，我自己看论文的时候觉得prompt 学习和 instruct 学习这两者的边界非常模糊。而且在 instructGPT 论文中，训练过程的输入，也就是提问或者指令，都被称为 prompt being sampled。所以想问一下老师怎么去理解这两者呢？

prompt-based 可以理解为，template sample 是引导模型，或则说是 search，可以在已经训练好的，也可以继续训练，就是所谓的 prompt-tuning;而，instruction turning 是做对齐，实际上是将各种任务，去训练引导对齐到训练任务到 groundtruth target，还是不同的
薯

薯条得沾冰淇淋 2023-03-14 20:34:51 回复

老师好，我自己看论文的时候觉得prompt 学习和 instruct 学习这两者的边界非常模糊。而且在 instructGPT 论文中，训练过程的输入，也就是提问或者指令，都被称为 prompt being sampled。所以想问一下老师怎么去理解这两者呢？
VincentWei 2023-03-14 20:24:45 回复

说白了，我觉得，这个 ChatGPT 不会逃离之前的对话系统框架，只是整个过程思路被扩展开来，讲 DL 和 RL 通过基础模型来训练，并且整个流程整合
VincentWei 2023-03-14 20:23:13 回复

而且这种对话最终模块，估计是和整个对话过程的流水线中，在大的 RL 框架下执行训练的
VincentWei 2023-03-14 20:21:21 回复

按照我的理解，这个多轮对话，是有个对话追踪队列，这个队列在整个 session 中存在的，ChatGPT 应该也有想过机制设计，甚至具备记忆功能，但是估计也是通过神经网络来实现的
VincentWei 2023-03-14 20:19:11 回复

因为以前自己研究实现对话系统的时候，多轮对话是个问题
VincentWei 2023-03-14 20:16:46 回复

或者说如果我和 ChatGPT 交流了很多轮候，比如 100 轮，101 谈到第 1 轮提到的，他还能正常工作吗
VincentWei 2023-03-14 20:15:14 回复

ChatGPT 如何实现多轮对话的，是否有记忆功能？多轮对话在我看来很难实现。