RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

实践课二:ChatGPT 技术原理和演进以及借鉴

评论(10)
  • Atongmu
    Atongmu 回复
    请问老师,GPT系列工作是累计训练的吗? 会不会出现忘记之前训练的能力呢?
  • VincentWei
    VincentWei 回复
    薯条得沾冰淇淋 2023-03-14 20:34:51
    老师好,我自己看论文的时候觉得prompt 学习和 instruct 学习这两者的边界非常模糊。而且在 instructGPT 论文中,训练过程的输入,也就是提问或者指令,都被称为 prompt being sampled。所以想问一下老师怎么去理解这两者呢?

    为个人的想法,希望帮到你,也听听老师的解释吧

  • VincentWei
    VincentWei 回复
    薯条得沾冰淇淋 2023-03-14 20:34:51
    老师好,我自己看论文的时候觉得prompt 学习和 instruct 学习这两者的边界非常模糊。而且在 instructGPT 论文中,训练过程的输入,也就是提问或者指令,都被称为 prompt being sampled。所以想问一下老师怎么去理解这两者呢?

    prompt-based 可以理解为,template sample 是引导模型,或则说是 search,可以在已经训练好的,也可以继续训练,就是所谓的 prompt-tuning;而,instruction turning 是做对齐,实际上是将各种任务,去训练引导对齐到训练任务到 groundtruth target,还是不同的

  • 薯条得沾冰淇淋 回复
    老师好,我自己看论文的时候觉得prompt 学习和 instruct 学习这两者的边界非常模糊。而且在 instructGPT 论文中,训练过程的输入,也就是提问或者指令,都被称为 prompt being sampled。所以想问一下老师怎么去理解这两者呢?
  • VincentWei
    VincentWei 回复

    说白了,我觉得,这个 ChatGPT 不会逃离之前的对话系统框架,只是整个过程思路被扩展开来,讲 DL 和 RL 通过基础模型来训练,并且整个流程整合

  • VincentWei
    VincentWei 回复

    而且这种对话最终模块,估计是和整个对话过程的流水线中,在大的 RL 框架下执行训练的

  • VincentWei
    VincentWei 回复

    按照我的理解,这个多轮对话,是有个对话追踪队列,这个队列在整个 session 中存在的,ChatGPT 应该也有想过机制设计,甚至具备记忆功能,但是估计也是通过神经网络来实现的

  • VincentWei
    VincentWei 回复

    因为以前自己研究实现对话系统的时候,多轮对话是个问题

  • VincentWei
    VincentWei 回复

    或者说如果我和 ChatGPT 交流了很多轮候,比如 100 轮,101 谈到第 1 轮提到的,他还能正常工作吗

  • VincentWei
    VincentWei 回复

    ChatGPT 如何实现多轮对话的,是否有记忆功能?多轮对话在我看来很难实现。