RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

专题报告四:预训练,指令微调,对齐,专业化:论大语言模型能力的来源

评论(9)
  • stone 回复

    请问符老师,如果把模型从一个技能点换到另一个专业的方向,达到教授的级别是可以实现的,那是不是很多任务的小模型未来都没有什么研究的意义了?

  • Mgpt 回复

    符博认为学术界在没有足够计算资源的情况下还有哪些方向可以探索

  • 请问这种大规模语言学习怎么能与强化学习结合呢

  • wxzy 回复
    请问符博,1,大模型对理科知识的训练目前是怎么实现的?个人感觉语言模型更适合对文本和上下文知识学习,但不适合对数理领域的知识学习。2,模型的指令微调解锁模型在新领域的推理能力会不会跟prompt类似,通过小样本找回了大模型在预训练阶段已有的相关能力的“记忆”?
  • 强化学习不够强 回复

    靠人打标签生成的 reward model 来给 GPT 进行 Alignment,这样相当于增加了一环 Alignment error?因为相当于 RM 偏好要和人类偏好 Alignment,然后 GPT 的输出要和 RM 的偏好进行 Alignment。这样会有两重的 Alignment error。但是又由于 RM 是一个小模型,这样是否会导致 RM 和 人类偏好的 Alignment error 很大,从而导致 GPT 性能不佳?

  • coder_2021 回复

    GPT-4 这么强,那现在做小规模模型的出路在哪?

  • 强化学习不够强 回复

    符博士怎么看待 Stanford 刚出的 Alpaca 和 text-davinci-003 的性能对比?他们号称 7B 参数量的 Alpaca 可以媲美 text-davinci-003,这个是否是打破了 Scaling Law?或者说,是不是现在的 Scaling Law 其实过于保守了?同等参数量下,模型性能其实还有很大的可挖掘空间?

  • 孙罗洋 中科院自动化研究所

    欢迎大家留言提问

  • 目前感觉符博士讲的是最好的...