RLChina 2025 TUTORIAL

Tutorial Speakers
课程介绍

周一上午:强化学习理论

课程介绍:

    本课程系统梳理强化学习的核心理论与方法,从马尔可夫决策过程、动态规划到值函数估计与策略梯度,再到深度强化学习的价值方法、策略方法及基于模型的扩展。最后,课程还将结合大模型的发展,探讨强化学习与大模型融合的最新进展与应用前景。

课程大纲:

  • 1.强化学习技术概览
  • 2.马尔可夫决策过程
  • 3.动态规划
  • 4.值函数估计
  • 5.无模型控制方法
  • 6.参数化值函数
  • 7.策略梯度
  • 8.深度强化学习 – 价值方法
  • 9.深度强化学习 – 策略方法
  • 10.基于模型的深度强化学习
  • 11.强化学习与大模型

讲师介绍:

温颖
温颖,上海交通大学人工智能学院长聘教轨副教授,博士生导师。他的研究方向涉及强化学习、多智能体系统及决策大模型。他于2020年和2016年分别获得英国伦敦大学学院计算机系博士学位和研究型硕士学位,入选上海海外高层次人才,作为负责人主持自然科学青年基金,国家重点研发计划课题,上海市科学智能百团百项,上海市青年科技英才扬帆计划。他的五十余篇研究成果发表在ICML, NeurIPS, ICLR, IJCAI, AAMAS等相关领域的一流国际会议上。曾获CoRL 2020最佳系统论文奖,AAMAS 2021 Blue Sky Track最佳论文奖,WAIC’25云帆奖璀璨明星提名奖。他连续多年担任ICML, NeurIPS, IJCAI, AAAI, IROS, ICAPS, Operational Research等国际知名会议/期刊的PC成员或审稿人。

周一下午:强化学习实践

课程介绍:

    本课程基于腾讯开悟平台,进行围绕“路径规划“问题,开展实验实训。从动态规划、蒙特卡洛到时序差分算法,结合腾讯开悟平台的实验场景“峡谷漫步”,提升学员对于传统强化学习的理解。同时基于DQN的深度强化学习理论,引入路径规划进阶实验“重返秘境”,帮助学员提升对深度强化学习算法和模型训练的实践应用能力。

课程大纲:

  • 1.腾讯开悟平台介绍及基础操作
  • 2.基于动态规划的路径规划基础实训
  • 3.基于蒙特卡洛的路径规划基础实训
  • 4.基于时序差分算法的路径规划基础实训
  • 5.基于DQN的路径规划进阶实训

讲师介绍:

汪文俊
汪文俊,腾讯开悟平台运营负责人。兼任香港中文大学(深圳)校外导师、电子科技大学计算机学院硕士生企业导师。长期从事游戏和教育产业相关,在华为、腾讯等企业任职相关岗位。在电信软件、云计算和游戏AI等领域有丰富工程和运营经验。主持腾讯游戏浙江大学联合实验室、国内首个游戏化AI教育平台(腾讯开悟)和华为大数据软件人才培养方案等项目,深度参与CCF强化学习系统标准建设工作。

周二上午:大模型理论

    本大模型理论课系统梳理语言模型发展历史、大模型预训练、大模型后训练方法,并针对后训练方法进行展开介绍,包括全参量指令微调、轻量级指令微调、直接偏好对齐方法、强化学习与人类对齐方法。最后讲解大模型的主要解释方法,包括神经元机制解释、跨任务性能解释与精准控制。

课程大纲:

  • 1.语言模型历史
  • 2.Transformer模型架构简介
  • 3.预训练方法
  • 4.后训练方法
    • 4.1 全参量指令微调
    • 4.2 轻量级指令微调
    • 4.3 直接偏好对齐方法
    • 4.4 强化学习与人类对齐
  • 5.大模型跨任务性能评测与解释
  • 6.大模型机制解释与精准控制

讲师介绍:

王希廷
王希廷,中国人民大学高瓴人工智能学院副教授,博士生导师,曾任微软亚洲研究院首席研究员,于清华大学获得学士及博士学位。研究领域为大模型解释与对齐。获CCF自然科学二等奖,2篇论文入选IEEE TVCG(CCF-A)封面论文。研究成果落地支付宝百灵大模型、微软必应搜索、Outlook及MSN,影响上亿用户,年收入增益上亿元。担任AAAI领域主席、Visual Informatics (Q1)青年编委。担任过IEEE VIS(CCF-A)组委会档案主席、IJCAI领域主席。获评AAAI杰出资深程序委员,两次获评CCF杰出演讲者。

周二下午:数据驱动的大模型优化与实践

课程大纲:

    数据是驱动大模型能力涌现与持续进化的核心要素。本次课程将探讨“数据驱动”这一大模型研发的第一性原理。首先,我们将聚焦“数据菜谱”理念,即如何系统性地设计、处理和优化数据以最大化模型潜能,并介绍一站式多模态数据处理开源系统Data-Juicer。我们将分享其在数据-模型协同开发、数据合成等前沿课题中的应用范式与实践洞察。随后,我们将探讨模型在动态环境中如何利用反馈数据进行自我迭代与对齐,介绍统一的强化微调框架Trinity-RFT,并展示其在真实场景中的落地应用。本报告旨在为研发人员提供从静态数据生产到动态反馈优化的全局视图和工具链。

课程大纲:

  • 1.引言:数据,大模型时代的“第一性原理”
    • 1.1 数据:从模型基石到能力引擎
    • 1.2 数据工程的挑战:复杂度、成本与系统基建
    • 1.3 核心思路:构建数据-模型协同演化的闭环
  • 2.数据处理与生产:开源系统 Data-Juicer 解析
    • 2.1 系统概览:一站式、可扩展的数据处理框架
    • 2.2 “数据菜谱”:端到端的数据处理流程设计与实现
    • 2.3 实践范式 1:数据分析与洞察
      • - 数据质量评估与“沙盒实验室” (DJ-Sandbox)
      • - 数据配比定律探索 (BiMix, DaaR)
    • 2.4 实践范式 2:高质量数据合成
      • - 训练数据合成 (ImgDiff、MindGYM)
      • - 评测基准数据合成 (DetailMaster, HumanVBench)
    • 2.5 系统优化与未来:从企业级引擎到数据智能体 (Data-Juicer Agent)
  • 3.动态反馈与对齐:强化微调框架 Trinity-RFT
    • 3.1 从静态微调到动态对齐:为何需要强化学习?
    • 3.2 Trinity-RFT:统一、通用的强化微调框架设计
      • - 核心架构:解耦与模块化设计
      • - 模式统一:兼容在线/离线、同策略/异策略
      • - Data Buffer:长生命周期、反事实经验塑型
    • 3.3 应用案例:
      • - 基于业务日志的智能体自动强化 (Learn-to-Ask框架)
      • - 系统化高质量Task数据生产(OpenTrinity数据集)
  • 4.总结与展望
    • 4.1 总结:数据驱动的大模型优化闭环
    • 4.2 未来方向:数据与智能体的自我演化
    • 4.3 问答与交流 (Q&A)

讲师介绍:

陈道源
陈道源,阿里巴巴通义实验室高级算法专家,2019年于北京大学获计算机应用技术硕士学位。主要研究方向为大模型数据智能、高效机器学习、多模态等,他发表了40余篇相关领域论文,其中20余篇作为一作发表在ICML、NeurIPS、ICLR、SIGMOD、KDD、TPAMI等顶尖国际会议期刊。他是开源项目Data-Juicer和Trinity-RFT的技术负责人,担任了NeurIPS领域主席,组织了多次KDD Tutorials和天池大模型竞赛。

周三上午:大模型智能体理论

课程大纲:

    面向通用智能的大模型智能体

课程大纲:

  • 1.导论:从大语言模型到通用智能体
    • 1.1 什么是智能体 (Agent)?
    • 1.2 现代大模型智能体的核心框架:感知-规划-行动-记忆
  • 2.智能体任务规划与分解
    • 2.1 思维链与其局限
    • 2.2 ReAct 框架:融合推理与行动
    • 2.3 任务分解的前沿方法
  • 3.大模型工具学习
    • 3.1 示范学习
    • 3.2 教程学习
    • 3.3 探索学习
  • 4.智能体记忆机制
    • 4.1 短期记忆
    • 4.2 长期记忆
    • 4.3 反思机制
  • 5.智能体学习与进化
    • 5.1 什么是 Agentic RL?
    • 5.2 案例:通过迭代试错优化复杂任务解决策略
  • 6.应用方向(一):通用计算机控制 (General Computer Usage Agent)
  • 7.应用方向(二):自动化科学研究(DeepResearch)
  • 8.总结与前沿展望

讲师介绍:

林衍凯
林衍凯,中国人民大学高瓴人工智能学院准聘副教授,主要研究方向为预训练模型和大模型智能体, Google Scholar 统计引用达到 2万余次, 2020-2024年连续五年入选爱思唯尔(Elsevier)中国高被引学者和斯坦福大学全球前2%顶尖科学家年度榜单、AI100青年先锋。其成果获评教育部自然科学一等奖、 2022 年世界互联网大会领先科技成果(全球共15项)。现任CCF NOI科学委员会委员。

周三下午:大模型智能体实践

课程大纲:

    本课程名称是探索Agent的Scaling Law:使用 CAMEL 框架构建更强大的自主多智能体。作为全球首个基于大语言模型的多智能体系统,CAMEL框架始终致力于探索智能体的Scaling Law。本次课程将遵循由浅入深的路径,系统性地介绍如何利用CAMEL,构建从单个智能体到高级多智能体工作流的全过程。首先,我们将从单个智能体的构建入手,讲解其核心组件。您将学习如何创建一个具备基础能力的独立智能体,并为其集成外部工具,使其能够执行信息检索、自动化脚本等真实世界任务。随后,我们将进入多智能体协作的领域,介绍CAMEL经典的Role-Playing系统。我们将探讨如何通过设定不同角色,让多个智能体进行对话式协作,共同完成代码编写、内容创作等需要多元视角与互动的复杂任务。最后,我们将深入探讨CAMEL最新的多智能体系统—Workforce。我们将展示Workforce如何组织和管理多个智能体,使其能够像一个团队一样,高效、自主地完成复杂的生产级工作流,解决真实场景中的挑战。本课程旨在为研发人员提供一个从单点到体系的全局视图,系统掌握利用CAMEL框架设计、实现和扩展各层级AI Agent应用的全链路方法与工具。本课程目标:理解多智能体系统的前沿理论与核心价值, 掌握使用CAMEL框架构建、配置和运行AI Agent的方法,能够独立完成从单个智能体到复杂多智能体工作流的开发,获得将多智能体系统应用于解决真实世界问题的实践经验。

课程大纲:

  • 主题演讲:探索Agent的Scaling Law (45分钟)
      介绍从单个Agent到Multi-Agent的的演化与发展,CAMEL社区围绕Agent的研究和落地的探索
  • 实践模块一:单个智能体的构建与增强 (30分钟)
    • 1.1 理论:构建智能体的基石
      • ChatAgent剖析:了解单个智能体的核心组件、配置。
      • 工具增强:讲解智能体如何通过调用外部工具(Tools)突破自身能力限制。
    • 1.2 实践:创建你的第一个“全能”助手
      • 动手环节:从零开始编写代码,创建一个可以进行基本对话的独立智能体, 添加工具以拓展该智能体的能力边界
  • 实践模块二:经典协作模式:RolePlaying (30分钟)
    • 2.1 理论:当智能体开始“对话”
      • Role-Playing系统的设计理念:通过对话驱动的协作模式。
      • 适用场景分析:代码结对编程、创意内容生成等。
    • 2.2 实践:构建一个属于你的第一个多智能体系统: RolePlaying (30分钟)
      • 两个智能体如何通过多轮对话协作完成代码的编写。
  • 实践模块三:更进阶的多智能体系统: Workforce(45分钟)
    • 3.1 理论:面向复杂任务的团队协作: 更明确的任务拆解、分工与流程控制。
      • 适用场景分析:自动化研究报告、市场分析、复杂并行任务处理等。
    • 3.2 实践:组建一个自动化“市场分析团队”
      • 动手环节:设计并创建一个包含“数据搜集员”、“数据分析师”和“报告撰写员”的Workforce。
      • 动手环节:下达一个宏观指令,驱动整个Workforce自主分工、执行并最终产出结构化的报告。
  • 模块四:未来方向与社区参与 (30分钟)
    • 4.1 CAMEL的未来发展路线图与更前沿的功能。
    • 4.2 如何参与CAMEL开源社区,贡献你的力量。
    • 4.3 问答环节 (Q&A)

讲师介绍:

汪文俊照片

李国豪
李国豪(Guohao Li)是一位人工智能研究员与开源贡献者,致力于构建具备感知、学习、交流、推理和行动能力的智能体。他是开源项目CAMEL-AI.org与DeepGCNs.org的核心负责人。 李国豪曾在牛津大学Philip Torr教授指导下担任博士后研究员,于阿卜杜拉国王科技大学(KAUST)获得计算机科学博士学位,师从Bernard Ghanem教授。博士期间,他曾以研究实习生身份在英特尔ISL实验室与Vladlen Koltun博士、Matthias Müller博士共事,并曾以访问学者身份赴苏黎世联邦理工学院计算机视觉实验室交流。此外,他还在Kumo AI及PyG.org平台与Jure Leskovec教授、Matthias Fey博士以博士实习生身份开展合作。其主要研究领域包括自主智能体、图机器学习、计算机视觉以及具身人工智能,相关成果已发表在ICCV、CVPR、ICML、NeurIPS、RSS、3DV等顶级会议和TPAMI等权威期刊上。

汪文俊照片

范文栋
范文栋, CAMEL AI核心成员,Eigent AI技术负责人。是CAMEL和OWL两个万星开源项目的核心开发者和维护者,曾先后任职于平安科技,爱尔兰中央统计局,巴斯夫中国数字化中心

周四上午:具身智能理论

课程大纲:

    课程内容简介:本课程系统介绍具身智能的核心概念、思想渊源与理论框架。课程将深入探讨具身智能的理念起源和“涌现”、“形态学计算”等核心理论支柱,并梳理实现具身智能的关键技术路径,如仿真模拟、强化学习及与大模型的融合。同时,课程介绍具身智能安全领域的测试验证,利用可证明概率性安全等为具身智能的应用和推广提供安全理论保障。最后,课程将客观分析当前领域面临的挑战并对未来发展进行展望。

课程大纲:

  • 1.具身智能概述
  • 2.具身智能思想溯源:从二元论到具身认知
  • 3.具身智能核心理论支柱
  • 4.具身智能关键技术路线
  • 5.具身智能安全性测试验证
  • 6.挑战与未来展望

讲师介绍:

封硕
封硕,清华大学自动化系副教授、特别研究员、博士生导师,目前担任系统工程研究所副所长,入选国家海外高层次青年人才计划。从事智能安全攸关系统测试验证研究,研究成果在自动驾驶汽车领域得到广泛应用,以通讯作者或第一作者在《自然》(2023,封面论文)、《自然·通讯》(2021,2024,featured articles)等高水平期刊发表论文。曾获IEEE智能交通系统学会最佳博士学位论文奖、美国运筹与管理协会智能交通系统年度最佳论文奖、MIT TR35、达摩院青橙奖、AI100青年先锋等荣誉。

周四下午:具身智能实践

课程大纲:

    本课程以具身智能实践为核心,围绕具身智能(Embodied AI)的完整流程展开。课程将从 VLA(视觉-语言-动作)范式与关键框架导入,带领学员亲手完成数据采集、标注与存储;进而实操 VLA 模型的微调与优化,并最终实现模型的部署与测试。通过循序渐进的动手演练,学员不仅能够理解具身智能的核心概念,更能掌握从数据到落地应用的实战技能。

课程大纲:

  • 1.课程导入与核心概念
    • a.具身智能的定义与发展背景
    • b.核心技术综述
  • 2.数据采集
    • a.为什么数据是关键?
    • b.采集流程讲解
    • c.实践演示
  • 3.模型微调
    • a.VLA实践论文介绍
    • b.微调流程VLA
    • c.实操微调DEMO
  • 4.具身智能关键技术路线
  • 5.具身智能安全性测试验证
  • 6.挑战与未来展望

讲师介绍:

张海峰照片

李阳
李阳,通用决策智能研究所实习生,主要研究方向为具身智能与多智能体系统,在 ICML、NeurIPS、JAIR 等国际顶级会议与期刊发表论文十余篇,并受邀担任 ICML、AAAI、NeurIPS、ICLR、TPAMI 等会议与期刊评审和PC成员。

周五上午:多智能体理论

课程大纲:

    本课程系统讲授多智能体系统的理论基础与前沿应用技术。从多智能体基本概念和博弈论基础入手,深入介绍多智能体强化学习、心智建模和通信机制等核心理论。课程紧跟技术发展趋势,还将重点介绍基于大模型的多智能体系统设计,涵盖大规模社会模拟、多模态具身交互等前沿应用领域。通过课程介绍,学员将掌握多智能体系统的设计原理、关键算法,具备解决复杂分布式智能问题的能力。

课程大纲:

  • 1.多智能体基本概念
  • 2.博弈论基础
  • 3.多智能体学习
  • 4.多智能体通信机制
  • 5.基于大模型的多智能体系统
  • 6.大规模多智能体社会模拟
  • 7.多模态具身交互
  • 8.多智能体仿真平台及应用

讲师介绍:

钟方威
钟方威,北京师范大学人工智能学院副教授,北京大学博士,博雅博士后(ACM China SIGAI优博奖,北京市优秀博士毕业生)。研究方向为认知启发的自主智能体系统,主持国家博新计划、国家自然科学青年基金、北京市自然科学基金重点项目等项目,在TPAMI,NeurIPS,ICLR ,ICML等人工智能领域顶会顶刊发表论文三十余篇,论文获ACL 2025 SAC Highlights Award,担任ICML、ICLR等人工智能领域顶会领域主席及多个顶级期刊和会议审稿人(Nature Machine Intelligence等)。

周五下午:多智能体实践

课程大纲:

    本课程围绕多智能体博弈相关理论和算法,在具体的应用场景上开展实践探索。课程将分别介绍多智能体博弈方法在经济政策制定和策略性沟通领域的研究现状和最新研究成果,并引导学员在具体的场景上动手实践,参与算法训练、调优等工作,同时鼓励自由发挥,提出创新性的改进思路并进行尝试。通过实践,学员们可以对基于强化学习、大模型智能体等技术的多智能体博弈方法有更深入的了解和认识,并提升将算法应用于实际场景的工程化能力。

课程大纲:

  • 1.多智能体博弈介绍
    • 1.1 多智能体博弈理论和方法介绍
    • 1.2 多智能体博弈的应用现状
  • 2.实践1:多智能体博弈在经济政策制定上的应用实践
    • 2.1 问题介绍
    • 2.2 算法实践
    • 2.3 分享交流
  • 3.实践2:多智能体博弈在策略性沟通上的应用实践
    • 3.1 问题介绍
    • 3.2 算法实践
    • 3.3 分享交流
  • 4.课程总结

讲师介绍:

林舒
中国科学院自动化研究所助理研究员,主要研究领域包括组合优化问题求解、程序自动生成和算法优化、游戏AI、编程基础教育等。分别于2021年和2013年在北京大学获得计算机软件与理论博士学位和计算机科学与技术学士学位。