发布于2024-08-30 16:46:02
一文七问|自博弈微调(Self-Play Fine-Tuning)将弱语言模型转换为强语言模型
导读 加州大学最近的研究介绍了一种名为 SPIN(Self Play fIne tuNing)的新技术,该技术灵感来源于 AlphaGo Zero 和 AlphaZero 等游戏中的自我对弈机制。SPIN 旨在使大语言模型(LLM)能够通过自我对弈进行训...赞
1
评论
浏览
689