RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
评论(9)
请
登录后发表观点
-
请问符老师,如果把模型从一个技能点换到另一个专业的方向,达到教授的级别是可以实现的,那是不是很多任务的小模型未来都没有什么研究的意义了?
-
符博认为学术界在没有足够计算资源的情况下还有哪些方向可以探索
-
请问这种大规模语言学习怎么能与强化学习结合呢
- 请问符博,1,大模型对理科知识的训练目前是怎么实现的?个人感觉语言模型更适合对文本和上下文知识学习,但不适合对数理领域的知识学习。2,模型的指令微调解锁模型在新领域的推理能力会不会跟prompt类似,通过小样本找回了大模型在预训练阶段已有的相关能力的“记忆”?
-
靠人打标签生成的 reward model 来给 GPT 进行 Alignment,这样相当于增加了一环 Alignment error?因为相当于 RM 偏好要和人类偏好 Alignment,然后 GPT 的输出要和 RM 的偏好进行 Alignment。这样会有两重的 Alignment error。但是又由于 RM 是一个小模型,这样是否会导致 RM 和 人类偏好的 Alignment error 很大,从而导致 GPT 性能不佳?
-
GPT-4 这么强,那现在做小规模模型的出路在哪?
-
符博士怎么看待 Stanford 刚出的 Alpaca 和 text-davinci-003 的性能对比?他们号称 7B 参数量的 Alpaca 可以媲美 text-davinci-003,这个是否是打破了 Scaling Law?或者说,是不是现在的 Scaling Law 其实过于保守了?同等参数量下,模型性能其实还有很大的可挖掘空间?
-
欢迎大家留言提问
-
目前感觉符博士讲的是最好的...