自动化所杨企鹏 这家伙很懒,什么都没留下 发布于 9天前 一文七问|自博弈微调(Self-Play Fine-Tuning)将弱语言模型转换为强语言模型 论文研讨 浏览 (133) 点赞 (1) 收藏 评论 请 登录后发表观点 到底啦