RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
自动化所杨企鹏

自动化所杨企鹏

这家伙很懒,什么都没留下

个人成就
  • 积分
    5
  • 帖子
    5
  • 评论
    0
  • 注册排名
    2327
  • 关注了
    0
  • 关注者
    0
  • 帖子
  • 文章
  • 自动化所杨企鹏
    自动化所杨企鹏 自动化所杨企鹏 这家伙很懒,什么都没留下
    发布于2024-08-30 16:46:02

    一文七问|自博弈微调(Self-Play Fine-Tuning)将弱语言模型转换为强语言模型

    导读 加州大学最近的研究介绍了一种名为 SPIN(Self Play fIne tuNing)的新技术,该技术灵感来源于 AlphaGo Zero 和 AlphaZero 等游戏中的自我对弈机制。SPIN 旨在使大语言模型(LLM)能够通过自我对弈进行训...
    赞 1
    评论
    浏览 1154
    论文研讨
  • 自动化所杨企鹏
    自动化所杨企鹏 自动化所杨企鹏 这家伙很懒,什么都没留下
    发布于2023-10-13 18:30:28

    良师益友 | 中山大学余超:推进智能决策技术产学研合作

    导读 在本次活动中,我们邀请到了中山大学计算机学院的余超副教授。接下来将从个人介绍、学术观点、教研与生活,社会热点等方面带你了解余超老师与其团队。 人物简介 余超博士,中国中山大学"百人计划"引进副教授、博士生导师、国家"香江学者",主要研究兴趣集中在强...
    赞 1
    评论
    浏览 1064
    经验分享
关于 标签 友链