RLChina 2025 WORKSHOP

1、未来RL论坛
讲者介绍
汪跃
北京中关村学院
汪跃博士,现就职于北京中关村学院, 曾任微软研究院高级研究员。概率论与数理统计专业博士学位,师从中国科学院院士马志明。主要从事人工智能、强化学习等方面研究工作,研究聚焦于强化学习的算法有效性与算法效率,研究重点包括强化学习的基础理论,算法创新,以及在大模型和科学智能中的相关应用。在人工智能和机器学习等国际顶级会议和期刊上共发表学术论文20余篇。
报告主题: 从PPO到DPO:一个统一策略优化框架及其在大型语言模型训练中的应用
当前,基于策略梯度的强化学习算法,特别是PPO和DPO,已成为大型语言模型推理和对齐训练中的关键技术,但两者分属基于“奖励”和基于“偏好”的两种不同范式,缺乏统一的理论解释。本文通过建立一个统一的数学框架,首次清晰地揭示了PPO与DPO之间的理论桥梁。我们的分析不仅阐明了它们的联系与区别,还暴露了DPO优化目标中存在的关键缺陷。同时,该框架也为理解相关算法提供了新的视角。受此启发,我们从理论出发,提出了新型强化学习算法。在实际测试中,该算法在提升模型性能方面表现出色,有力地证明了我们统一框架在指导算法设计与创新上的强大潜力。
闵垚森
北京中关村学院
闵垚森,北京中关村学院博士生导师,中关村人工智能研究院研究员。2018年毕业于清华大学化学系获得学士学位,2023年于清华大学交叉信息研究院获得计算机博士学位,博士导师为曾坚阳教授与吴及教授。主要研究方向包括人工智能辅助药物设计、分子性质预测、蛋白质设计与优化等。第一发明人授权发明专利1项,参编专著1部。研究成果部分发表于Nat. Mach. Intell.,Nat. Commun.,Adv. Sci.,ICLR,WWW,ACM MM,TMLR等期刊与国际会议。
报告主题: 蛋白-配体相互作用引导的多目标强化学习药物设计
基于结构的人工智能药物设计方法近年来取得了快速发展,其中强强化学习技术在生成模型的构象空间约束和性质约束上展现出诸多优势,为化学空间的充分探索和深度利用提供了有力工具。但现有工作往往具有优化目标单一,生成分子相互作用有限的弊端。对此我们提出了一种蛋白-配体相互作用引导的强化学习药物设计模型。通过设计配体分子与氨基酸残基的相互作用作为奖励信号,结合多目标强化学习算法拓展相互作用的帕累托前沿,实现了蛋白口袋高结合亲和力的配体分子设计。
邓悦
北京中关村学院
邓悦博士,北京中关村学院博士生导师,中关村人工智能研究院研究员。浙江大学计算机技术专业博士学位。主要从事强化学习、多智能体强化学习、决策大模型等方面研究工作,研究聚焦于基于样本效率提升的多智能体强化学习训练加速和基于可解释性的白盒大模型决策。研究重点包括强化学习的基础理论,多智能体强化学习算法创新,及其在大模型的相关应用。相关工作在JMLR、NeurIPS、IJCAI、TOSEM、计算机学报等期刊会议上发表。
报告主题: 基于大语言模型的智能体白盒决策与主动进化
大语言模型在编程、规划与决策等多个领域中已展现出卓越的能力。面对决策问题,大模型可以通过输出白盒决策树代码的形式增强其思维逻辑的可解释性。然而,面对需要在较长时间跨度上进行深度推理的高复杂度任务时,采用直接求解的方式会因为结构化的中间引导缺失而导致求解效率的低下或失败。基于此,本次报告提出一种基于规划-编码-反思的自反馈的白盒决策框架,以及基于课程设计和场景生成的智能体自主进化框架。根据大模型的问题求解能力和实际学习进度,自动化构建一系列难度动态调整的任务实例,从而使大模型能够循序渐进地掌握解决复杂决策任务所需的技能并完成复杂决策任务。
张霄远
北京中关村学院
张霄远博士,现任北京中关村学院博士生导师,中关村人工智能研究院研究员。他于上海交通大学获得学士与硕士学位,后于香港城市大学取得计算机科学博士学位。张博士长期致力于多目标优化与大语言模型训练的交叉领域研究。他的主要贡献包括:1) 开发了基于梯度的多目标优化平台LibMOON,实现了对百万级参数问题的高效求解;2) 率先将帕累托解集学习(Pareto Set Learning)思想应用于十亿级参数大模型的强化学习微调(RLHF)中。他在人工智能领域的国际顶级会议与期刊(如 NeurIPS, ICML, ICLR)上发表了十余篇学术论文,并担任 IJCAI 2025 大会“多目标优化”主题的特邀讲座(Tutorial)组织者。他曾荣获微软“编程之美”全国总冠军、香港城市大学杰出学术表现奖等荣誉。
报告主题: 迈向真实世界多目标强化学习
真实世界的智能体决策本质上是一个在多维目标空间中寻求最优解的过程。从大型语言模型(LLM)在生成内容时必须权衡其有用性(Helpfulness)、安全性(Safety)与表达效率(Brevity),到自主机器人在导航任务中对避障安全性、能源效率与执行速度的综合考量,目标间的内在冲突(conflicting objectives)是普遍存在的。如何形式化并解决这类多目标决策问题,是强化学习领域一个开放且关键的挑战。 本报告聚焦于多目标强化学习(Multi-Objective Reinforcement Learning, MORL)的核心难题:设计能够有效学习和逼近帕累托最优前沿(Pareto Front)的算法。我们将深入剖析现有算法的设计哲学与性能瓶颈,并探讨其理论保证。同时,报告包括MORL在当前最受关注的研究领域——大型语言模型的对齐(Alignment)——中的最新应用进展,展望未来的研究方向。
何纪言
北京中关村学院
何纪言,北京中关村学院博士生导师,中关村人工智能研究院研究员,研究方向为大模型智能体、AI for Science、人工智能安全,博士毕业于中国科学技术大学,在 Nature Machine Intelligence、ICLR、ICML 等国际顶级期刊与会议上以第一或共一作者身份发表论文若干。
报告主题: Modeling Earth-Scale Human-Like Societies with One Billion Agents
要想理解复杂的社会行为如何从个体认知与互动中涌现,既需要对人类行为进行高保真建模,也需要进行大规模模拟。几十年来,研究人员一直使用传统的基于智能体的建模(ABMs)来研究这些动态过程,但这类模型受限于过于简化的智能体行为,无法捕捉人性的复杂之处。近期大语言模型(LLMs)的进步带来了新的机遇:它能让智能体展现出超越规则逻辑的复杂社会行为,但也面临着严峻的规模化挑战。针对这两点挑战,我们提出了 Light Society,它由大语言模型驱动,能够高效地模拟地球尺度的人类社会。Light Society 将社会过程形式化为智能体与环境状态的状态转换,这些转换由一组大语言模型驱动的模拟操作所主导,并通过一个事件队列来执行。这种模块化设计支持对各组件进行独立或联合优化,从而能高效模拟超过十亿智能体规模的社会。我们进行了信任博弈和观点传播的大规模模拟,结果证明 Light Society 在建模社会信任与信息扩散方面兼具高保真度与高效率。研究同时揭示了“规模法则”(scaling laws):模拟的规模越大,其涌现出的行为就越稳定、越真实。总而言之,Light Society 将大语言模型的深度认知能力与超大规模模拟的广度相结合,为计算社会科学开创了一个全新的研究范式。

2、AI软硬件系统论坛
讲者介绍
王颖
中国科学院计算技术研究所
王颖,中科院计算所研究员,CCF集成电路设计专委秘书长。主要研究方向包括集成电路设计自动化,高能存储系统设计,主持基金委优青,科技部重点研发等项目。共发表100余篇集成电路与系统结构领域的CCF-A类论文。获得CCF-A类期刊IEEE Trans. on Computer, 以及IEEE ICCD等多个旗舰国际会议的大陆首次最佳论文奖。相关研究成果荣获中国计算机学会技术发明一等奖(第一完成人)、中国电子学会技术发明二等奖、北京市技术发明二等奖,以及华为奥林帕斯先锋奖(智能存储系统),CCF青年科学家奖,CCF-Intel青年学者奖,CCF集成电路early career award。在国际上,曾获得IEEE/ACM DAC40岁以下创新奖(当年全球4位), 2018年中科院科技成果转化特等奖。论文成果曾入选2023 IEEE测试与容错Top Picks,另外获得GLSVLSI,ITC-ASIA最佳论文奖以及ASPDAC最佳论文提名。
报告主题: 大语言模型辅助的处理器芯片设计
随着半导体工艺逼近物理极限和计算需求日益多元化(如人工智能、边缘计算),传统的处理器设计方法面临设计周期长、成本高昂、架构探索空间受限等挑战。近期,大语言模型在自动硬件描述语言代码生成方面展现了巨大的潜力,能够从高层次的规范中生成硬件描述。本报告将聚焦于处理器体系结构生成与建模,首先讨论处理器设计自动化的必要性,特别是体系结构生成技术如何通过高级抽象(如领域特定语言DSL、模板、基于机器学习的生成)自动产生满足特定目标(性能、功耗、面积)的处理器微架构描述(如RTL);其次,将深入分析体系结构建模的核心作用,例如性能建模、功耗建模和面积建模等;最后,将探讨利用自动化工具和方法加速并优化处理器设计流程的未来发展方向。
贾天宇
北京大学
贾天宇,北京大学集成电路学院助理教授/研究员、博雅青年学者,北京大学集成电路设计系副主任。获美国西北大学博士,曾任哈佛大学博士后,前卡耐基梅隆大学助理研究教授。研究兴趣为数字集成电路设计与计算机体系架构,在芯片设计领域发表高水平论文70余篇,包括ISSCC、VLSI、MICRO、DAC等。
报告主题: 面向生成式模型的软硬协同芯片架构设计
生成式大模型已成为推动人工智能发展的核心引擎,但其巨大的参数量、计算复杂度和内存消耗对现有的计算硬件架构提出了前所未有的挑战。传统以硬件为中心或单纯依赖软件优化的设计方法已难以满足其在性能、能效和成本上的苛刻要求。本报告将展示团队近期针对大语言模型、文生图模型的几个加速架构设计案例,展示软硬协同的架构设计方法已成为芯片设计的重要手段,在未来人工智能芯片中将带来更显著的设计收益。
陈键飞
清华大学
陈键飞,清华大学计算机系准聘副教授。2010-2019年获清华大学学士和博士学位。从事高效机器学习研究,谷歌学术引用5000余次。担任IEEE TPAMI的编委,担任ICLR等会议领域主席。获得CCF青年人才发展计划、清华大学学术新人奖等。
报告主题: 基于量化稀疏的高效训练推理:理论及算法
大模型所需计算成本高昂,而低精度、稀疏等高效训练推理方法均在原有计算基础上引入了近似,可能会引起精度损失。本报告将介绍近似梯度下降理论,该理论可以为高效的近似训练方法的收敛性、收敛速度提供理论保证。基于该理论,将分别介绍通过量化和稀疏两条技术路线设计的前馈神经网络计算加速、注意力计算加速、激活压缩、优化器压缩、通信压缩等高效训练推理算法。将从机器学习的角度出发,介绍高效训练的过程中遇到的训练不稳定等问题及克服方法。
于超
清华大学
于超,博士毕业于清华大学。研究领域为强化学习、多智能体、具身智能等。迄今以第一/通讯作者在顶级国际会议和期刊发表论文30余篇,谷歌学术总引用4000余次。其中,以第一作者发表于NeurIPS 2022的多智能体强化学习算法MAPPO论文引用逾2000次,发表于IROS 2018的机器人论文引用超1000次。曾获清华大学优秀博士毕业生、优秀博士论文、优秀硕士论文、2024年度中国智能体与多智能体系统优秀博士论文提名奖、国家奖学金等荣誉。博士后期间入选清华大学“水木学者”计划、电子系“传信未来学者”计划;获张克潜冠名博士后资助及博士后国资计划资助;主持国家自然科学基金青年项目、博士后基金特别资助与面上项目。
报告主题: RLinf: A System for Adaptive, Dynamic, Fine-Grained Scheduling in Reinforcement Learning​
TReinforcement Learning (RL) has played a pivotal role in the era of large models, powering the development of large reasoning models as well as the emerging paradigms of tool-use agents and GUI-based agents. As these applications grow in scale and complexity, the demand for a flexible and scalable RL infrastructure becomes increasingly critical. In this report, I introduce RLinf, a newly designed RL system that provides adaptive, dynamic, and fine-grained scheduling for modern RL workloads. RLinf features a unified programming interface, flexible execution modes, adaptive communication mechanisms, and an automated scheduling module that enables efficient utilization of heterogeneous resources. I will present the architectural design of RLinf and highlight its first deployment in embodied intelligence, demonstrating how RLinf can serve as a foundational infrastructure for next-generation RL research and applications.
曹士杰
微软亚洲研究院
曹士杰,微软亚洲研究院系统组高级研究员。研究方向为深度学习高效推理,模型压缩与加速,软硬件联合优化,特别是低比特和稀疏大语言模型及其系统和硬件加速。曾在OSDI,ISCA,MLSys,FPGA,ACL等发表多篇论文。

报告主题: 低比特大语言模型:从模型到系统到硬件
随着大语言模型在各种应用中的广泛使用,其在云端和边缘端的高效部署变得至关重要。低比特量化作为一种优化策略,已被证明是实现大模型轻量化部署和加速推理的有效手段。本报告将介绍微软亚洲研究院在低比特大语言模型研究中的探索和进展,包括在算法层面量化和蒸馏低比特大语言模型,在系统层面利用现有GPU/CPU/NPU实现低比特大语言模型高效推理,以及在硬件层面为低比特大语言模型设计下一代体系结构。
Christopher E. Mower
Huawei, Noah’s Ark Lab

报告主题: Ark: An Open-source Python Framework for Robot Learning
Robotics has made remarkable hardware strides-from DARPA's Urban and Robotics Challenges to the first humanoid-robot kickboxing tournament-yet commercial autonomy still lags behind progress in machine learning. A major bottleneck is software: current robot stacks demand steep learning curves, low-level C/C++ expertise, fragmented tooling, and intricate hardware integration, in stark contrast to the Python-centric, well-documented ecosystems that propelled modern AI. We introduce ARK, an open-source, Python-first robotics framework designed to close that gap. ARK presents a Gym-style environment interface that allows users to collect data, preprocess it, and train policies using state-of-the-art imitation-learning algorithms (e.g., ACT, Diffusion Policy) while seamlessly toggling between high-fidelity simulation and physical robots. A lightweight client-server architecture provides networked publisher-subscriber communication, and optional C/C++ bindings ensure real-time performance when needed. ARK ships with reusable modules for control, SLAM, motion planning, system identification, and visualization, along with native ROS interoperability. Comprehensive documentation and case studies-from manipulation to mobile navigation-demonstrate rapid prototyping, effortless hardware swapping, and end-to-end pipelines that rival the convenience of mainstream machine-learning workflows. By unifying robotics and AI practices under a common Python umbrella, ARK lowers entry barriers and accelerates research and commercial deployment of autonomous robots.
3、数据智能论坛
讲者介绍
何聪辉
上海人工智能实验室
何聪辉,清华大学博士,斯坦福大学、伦敦帝国理工学院访问博士,现任上海人工智能实验室青年科学家、上海交通大学兼职博导,长期从事 Data-Centric AI 与高性能计算领域,现带领 OpenDataLab 团队负责浦江“书生”系列大模型的数据体系建设。何聪辉在技术突破和开源生态影响力方面取得一系列成果,在计算机领域顶级学术会议发表高质量论文 150 余篇,谷歌学术引用达 9000 次,GitHub星标数突破 5 万;曾获高性能计算应用领域最高荣誉戈登·贝尔奖、ACL 最佳主题论文奖、世界人工智能大会云帆奖(璀璨明星)、腾讯技术突破金奖、IEEE 智慧地球挑战赛全球冠军。何聪辉积极拥抱开源社区,带领团队研发了全球首个大模型数据解析引擎 MinerU,目前 GitHub 星标数超 4 万(开源第一),超过同期开源的 LLaMa3,Qwen 等一线大模型。
报告主题: Meta-rater:预训练语言模型的多维数据筛选方法
大语言模型(LLM)的性能瓶颈不仅在于模型本身,更在于其不透明且质量参差不齐的预训练数据。当前的数据筛选方法普遍过于片面,未能全面评估数据对模型训练的真正价值。为解决这一问题,我们提出了一种突破性的多维度数据评估框架,并据此开发了Meta-rater方法。该方法将专业性、可读性、推理能力和整洁度四大维度进行系统整合,并通过独创的加权学习机制,智能预测并筛选出能最大化模型性能的数据组合。实验结果表明,Meta-rater效果显著:不仅使13亿参数模型的收敛速度翻倍,还将下游任务表现提升了3.23%。该方法的可扩展性已在72亿参数的模型上得到验证。我们的研究证实,相比于单一维度评估,全面、多维度的视角是提升大语言模型效率与能力的决定性因素。
骆昱宇
香港科技大学(广州)
骆昱宇博士,现任香港科技大学(广州)助理教授、香港科技大学联署助理教授、博士生导师,数据智能与分析实验室负责人。研究兴趣为DATA+AI数智融合方向,包括数据为中心的人工智能(Data-centric AI, DCAI)、大模型智能体(Foundation Agents)、数据智能体(Data Agents)、智能数据库系统(AI for Databases)。 主持国家自然科学基金青年项目、科技部重点研发计划项目课题等,在数据管理与挖掘(SIGMOD/VLDB/TODS/SIGKDD)、人工智能(ICML/NeurIPS/ICLR/ACL)等领域发表 CCF-A 类论文 40余篇,也担任多个国际顶会的Associate PC Chair/Area Chair和IEEE Data Engineering Bulletin期刊副主编。他获得多个最佳论文/提名奖(如SIGMOD 2023, CIKM 2022, DASFAA 2019),领导或参与开源了多个DATA+AI系统(如OpenManus智能体项目,Github 4.8万+Stars)。他曾获世界人工智能大会云帆奖、福布斯中国“30位30岁以下精英”榜、华为火花奖、清华特等奖学金、清华优博等荣誉。
报告主题: 从智能问数到数据智能体:范式演进与反思
以Text2SQL为代表的智能问数技术利用自然语言交互降低数据访问门槛,但其传统方法在泛化性与适应性上存在局限。大语言模型等技术的突破,正推动该领域向更自主的数据智能体范式演进。本报告探讨这一演进中的核心进展:智能体架构(如融合规划、决策与反馈的推理框架)显著提升了复杂查询的零样本泛化与可控性;交互能力的深化(如多轮对话、意图分解与澄清)使交互更自然精准;数据理解与操作的扩展(如跨模态融合)则拓宽了应用场景。报告同时深入反思当前面临的关键挑战:复杂意图的精准解析与任务分解、决策鲁棒性与错误处理、可解释性与安全可控性保障,以及智能体与数据基础设施的高效协同。最后探讨如何构建下一代高效、可靠、普适的数据智能体。
柴成亮
北京理工大学
柴成亮,北京理工大学计算机学院预聘副教授(特别研究员)、博士生导师,博士毕业于清华大学。曾获CCF优秀博士论文奖、ACM中国优秀博士论文奖、入选福布斯中国30位30岁以下精英榜单、北京市科技新星、百度奖学金等奖励。已发表CCF A类论文50余篇,包括SIGMOD、VLDB、TODS、KDD等。研究方向包括以数据为中心的人工智能、多模态数据分析。
报告主题: 多模态数据智能查询与分析系统
在当今信息爆炸的时代,数据的多样性和复杂性不断增加,传统的数据分析方法已难以满足数据分析师日益增长的需求。本报告探讨如何利用大语言模型(Large Language Models, LLMs)来系统性地分析多模态数据分析。大语言模型以其强大的自然语言处理能力,为理解和整合这些数据提供了新的视角。本研究首先概述了多模态数据的特点及其在现代数据分析中的重要性。随后,详细介绍了多模态数据表征与存储、系统的查询语言,查询优化方法,包括其在处理表格、文本、图像等数据时的策略和优势。
周煊赫
上海交通大学
周煊赫,现任上海交通大学计算机学院长聘轨助理教授。主要研 究智融数据分析、ML/LLM数据底座、自治数据库系统(AI4DB)。在SIGMOD、VLDB、NIPS、TKDE等CCF A类会议和期刊上已发表论文 数十篇,包括近五年VLDB、ICDE高被引论文,入选卡耐基梅隆大 学、康奈尔大学等高校课程。谷歌学术引用量两千余次。曾获世界人工智能大会云帆奖、ACM Jim Gray博士论文提名奖(大陆首位)、VLDB 2023最佳工业论文亚军奖(第一作者)、通信学会科 学技术一等奖、CCF优博、微软学者、字节跳动奖学金、清华特奖 等荣誉。代表性工作OpenMLDB已经落地第四范式先知(AIOS)平台并在金融、电商、能源等百余个真实场景中实现规模化应用。
报告主题: Data×LLM:云智数据基座与数据密集型分析应用​
随着多模态语言模型迈入“千亿参数、万亿数据”阶段,数据已成为驱动其能力跃迁的核心燃料。本报告围绕“数据 × 大模型”这一主题,系统介绍我们在构建云智数据基座、支撑领域大模型高效训练,以及驱动数据密集型智能应用方面的研究探索与系统实践。
张林峰
上海交通大学
张林峰,上海交通大学助理教授,2024年博士毕业于清华大学交叉信息研究院。研究方向为高效人工智能。他在高水平学术会议与期刊上以第一作者和通讯作者发表论文40余篇,担任ACL系列、NeurIPS等会议的领域主席,代表作自蒸馏被引用超过1000次,在知识蒸馏领域有较大影响。他曾获微软学者、北京市优秀毕业生,清华大学优秀博士论文,2025年WAIC云帆奖等。

报告主题: 数据视角下的模型压缩加速
大模型的计算成本严重制约了其落地应用。一般来说,模型的计算成本由其参数量与数据量共同决定。已有压缩研究主要关注如何减少模型的参数量而忽视了数据维度的压缩。随着强推理模型和视频生成模型的出现,我们发现数据规模(Token数量)的增加已经成为了计算成本居高不下的首要因素。在本报告中,我们将介绍数据中心的模型压缩加速在大模型、多模态大模型、图像视频生成模型上的几个典型案例。
4、强化学习理论论坛
讲者介绍
陈延福
新加坡国立大学
Vincent Y. F. Tan received the B.A. and M.Eng. degrees in electrical and information science from Cambridge University in 2005, and the Ph.D. degree in electrical engineering and computer science (EECS) from the Massachusetts Institute of Technology (MIT) in 2011. He is currently a Professor with the Department of Mathematics and the Department of Electrical and Computer Engineering (ECE), National University of Singapore (NUS). His research interests include information theory, machine learning, and statistical signal processing. Dr. Tan is an elected member of the IEEE Information Theory Society Board of Governors. He is currently serving as a Senior Area Editor for the IEEE Transactions on Signal Processing and as an Area Editor in Shannon Theory and Information Measures for the IEEE Transactions on Information Theory. He also regularly serves as an Area Chair or Senior Area Chair of prominent machine learning conferences such as the International Conference on Learning Representations (ICLR) and the Conference on Neural Information Processing Systems (NeurIPS).
报告主题: BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms
Speculative decoding has emerged as a popular method to accelerate the inference of Large Language Models (LLMs) while retaining their superior text generation performance. Previous methods either adopt a fixed speculative decoding configuration regardless of the prefix tokens, or train draft models in an offline or online manner to align them with the context. This paper proposes a training-free online learning framework to adaptively choose the configuration of the hyperparameters for speculative decoding as text is being generated. We first formulate this hyperparameter selection problem as a Multi-Armed Bandit problem and provide a general speculative decoding framework BanditSpec. Furthermore, two bandit-based hyperparameter selection algorithms, UCBSpec and EXP3Spec, are designed and analyzed in terms of a novel quantity, the stopping time regret. We upper bound this regret under both stochastic and adversarial reward settings. By deriving an information-theoretic impossibility result, it is shown that the regret performance of UCBSpec is optimal up to universal constants. Finally, extensive empirical experiments with LLaMA3 and Qwen2 demonstrate that our algorithms are effective compared to existing methods, and the throughput is close to the oracle best hyperparameter in simulated real-life LLM serving scenarios with diverse input prompts.
王趵翔
香港中文大学(深圳)
王趵翔是香港中文大学(深圳)数据科学学院的助理教授。他的主要研究方向为强化学习和学习理论,尤其关注博弈论背景下的问题设定。他于2020年获得香港中文大学计算机科学与工程博士学位。此前,他于2014年获得上海交通大学信息安全专业工学学士学位。他的研究成果发表于ICML、NeurIPS、ICLR等机器学习会议,包括给出The Gambler's problem的首个解析解,以及PPO的首个收敛性证明等。 
报告主题: On Games with Conflicting Interests
To investigate differentiable games (that have strategy spaces in $\reals^n$), we decompose the game into components where the dynamic is well understood. We show that any differentiable game can be decomposed as a direct sum of three parts: an exact potential part, a near vector potential part, and a non-strategic part. A potential part coincides with potential games described by Monderer and Shapley (1996), known as pure cooperative games. A vector potential game on the other hand represents a game with purely conflicting interests. We show that the individual gradient field is divergence-free, in which case the gradient descent dynamic may either be divergent or recurrent. When the divergence-free game is finite, including harmonic games and important classes of zero-sum games, we show that optimistic variants of classical no-regret learning algorithms converge to an $\epsilon$-approximate Nash equilibrium at a rate of $O(1/\epsilon^2)$.
左金航
香港城市大学
左金航博士现任香港城市大学计算机科学系助理教授,获美国卡内基梅隆大学博士学位。研究方向包括机器学习理论、大模型系统、网络系统优化与边缘智能。在人工智能与网络系统等领域的国际顶级会议和期刊(如 NeurIPS、ICML、ICLR、KDD、INFOCOM、SIGMETRICS、TON、JSAC 等)发表论文 30 余篇。曾获香港研究资助局青年学者计划(Early Career Scheme)、卡内基梅隆大学工程学院院长奖学金(Dean’s Fellowship)、马萨诸塞大学阿默斯特分校数据科学中心博士后奖学金、以及 ACM SIGMETRICS 2022 最佳海报奖等。
报告主题: Fusing Reward and Dueling Feedback in Stochastic Bandits
In many modern learning systems, from large language models to recommendation engines, feedback comes in two forms: absolute rewards (e.g., a quality score) and relative comparisons (e.g., "Is A better than B?"). While bandit algorithms typically use one type or the other, real-world applications often provide both. In this talk, we study the fusion of absolute (reward) and relative (dueling) feedback in stochastic bandits, where both feedback types are gathered in each decision round. We first derive a regret lower bound, demonstrating that an efficient algorithm may incur only the smaller among the reward and dueling-based regret for each individual arm. We then propose two fusion approaches: (1) a simple elimination fusion algorithm that leverages both feedback types to explore all arms and unifies collected information by sharing a common candidate arm set, and (2) a decomposition fusion algorithm that selects the more effective feedback to explore the corresponding arms and randomly assigns one feedback type for exploration and the other for exploitation in each round. The elimination fusion experiences a suboptimal multiplicative term in regret due to the intrinsic suboptimality of dueling elimination. In contrast, the decomposition fusion achieves regret matching the lower bound up to a constant. Extensive experiments confirm the efficacy of our algorithms and theoretical results.
孔芳
南方科技大学
孔芳,南方科技大学助理教授、副研究员、博士生导师。此前,她于上海交通大学获得博士学位,于山东大学获得学士学位。她的主要研究方向为在线学习和强化学习理论,以第一作者身份在SODA、COLT、ICML、NeurIPS等理论计算机和机器学习顶级会议上发表研究成果十余篇。长期担任ICML、NeurIPS、TPAMI等学术会议和期刊的审稿人。曾获得2025年CCF智能体与多智能体系统优秀博士论文奖和2023年百度奖学金。
报告主题: Bandit Learning in Matching Markets with Indifference​
Matching markets play a crucial role in both computer science and economics. Stable matching is a fundamental problem in this area, capturing equilibrium outcomes in which no pair of agents would prefer to be matched with each other over their current assignments. Since agents often face uncertainty in their preferences, bandit learning has recently gained considerable attention in this context. Although existing work provides significant theoretical upper bounds on stable regret, these results typically rely on the assumption that each agent has a strict preference ranking—an assumption that often breaks down in practice, where candidates may have similar qualifications. This talk introduces an adaptive exploration algorithm based on arm-guided Gale-Shapley (AE-AGS), which naturally handles indifferent preferences and performs effectively in more general settings. Both theoretical and empirical results show that the proposed algorithm significantly outperforms existing methods.
滕佳烨
上海财经大学
滕佳烨,上海财经大学统计与数据科学学院助理教授。他的主要研究方向是理论机器学习,包括泛化理论、共形预测等。他博士毕业于清华大学交叉信息研究院,并曾前往普林斯顿大学访问。他曾荣获清华大学优秀毕业生、清华大学优秀博士论文等荣誉,并曾获得上海市 2024 “科技创新行动计划” 启明星培育(扬帆专项)资助,以及2025 CCF理论计算机科学博士学位论文激励计划(提名)。他是人工智能研讨班FAI-Seminar的筹办人。他的主页为http://www.tengjiaye.com。
报告主题: Transformer两阶段学习范式
Transformer模型已经成为多个领域的核心架构,广泛应用于各类任务。在本报告中,我们从特征学习理论出发,提出了一种探讨Transformer 如何在训练动态中获取知识的新颖视角,将每个 token 概念化为包含两种类型的知识:一类是以语法信息为代表的基础知识,另一类是以语义信息为代表的专业知识。基于该数据建模,我们严格证明 Transformer 遵循“先语法后语义”的学习范式:首先在基础阶段掌握语法知识,随后在专业阶段解锁语义知识。具体地,在上下文学习框架下,我们刻画了Transformer在处理有监督分类任务时的训练动态,并提供了其有限时间收敛的理论结果。
5、推理大模型论坛
讲者介绍
张辉帅
北京大学
张辉帅,北京大学王选计算机研究所助理教授,此前曾在微软亚洲研究院担任首席研究员。他的研究领域包括自然语言处理、大模型的隐私保护,及大模型的优化算法。已在机器学习和人工智能的顶级会议与期刊上发表了40余篇论文。
报告主题: 基于智能体的强化学习数据构建与奖励设计
在数学/逻辑推理的强化学习任务中,数据构建与奖励设计是提升大模型性能与可靠性的关键环节。本报告介绍我们在这个方向上的两个尝试:一是基于任务定义的合成数据强化学习,通过智能体从任务描述及相关文档自动生成问答数据,并动态调整问题难度与筛选策略,实现无需人工标注的大规模 RL 训练,在数学、医学、法律、金融等多领域显著提升模型表现,并接近使用全人工数据的效果;二是基于过程验证的奖励设计(PRoSFI),在多步推理任务中,引入结构化中间步骤与形式化验证,确保推理链条每一步均可被机器验证,从而提升推理的可解释性与可信度。这两种方法共同展示了智能体驱动的自动数据合成与精细化奖励机制在降低人工成本、提升推理质量方面的潜力。
袁洋
清华大学
清华大学交叉信息研究院、人工智能学院副教授。2012年毕业于北京大学计算机系,2018年获得美国康奈尔大学计算机博士学位,师从Robert Kleinberg教授。他于2018-2019年前往麻省理工学院大数据科学学院(MIFODS)做博士后。袁洋的主要研究方向是智能医疗、AI基础理论、应用范畴论,在NeurIPS,ICLR,ICML等计算机和人工智能领域顶级会议上发表论文三十余篇。曾获得福布斯中国2019年30 Under 30、2019年北京智源青年科学家等荣誉。
报告主题: 基于拓扑斯理论的大规模软件辅助生成框架
随着大语言模型编程能力的持续提升,面向编程辅助的智能体系统迅速发展,并在实际开发中展现出显著成效。Cursor、Claude Code、Base44 等代表性工具已吸引大量开发者用户。然而,当前系统仍面临两大关键挑战:其一,难以高效生成具备完整架构与高一致性的超大规模软件系统;其二,交互模式多依赖“黑盒式”对话,用户在生成过程的细节控制上缺乏透明性与干预能力,代码的调整与优化往往依赖模型的迭代重生成,而非结构化引导。本报告尝试从范畴论与拓扑斯理论的角度出发,探索如何将这些数学基础应用于辅助编程系统的架构与交互设计,以突破现有瓶颈。我们提出的框架在类型编译器的帮助下,能够支持一次性并行生成数万行、并以较高概率一次编译通过的软件系统。更重要的是,该框架为用户(包括非专业编程背景者)提供了可解释、可干预的生成路径,实现前后端代码的协同构建与细粒度控制,从而在提升生成效率的同时增强系统的透明性与可控性。
彭云鹏
百度文心快码
百度文心快码团队高级经理,负责文心快码Comate智能代码助手、云IDE、需求管理平台、代码分析平台和效率云平台等业务和团队,代码智能化、静态分析、开发工具、软件测试、研发数字化等领域申请国内外发明专利71个,已获授权专利37个,国家重点研发计划《基于编程现场大数据的软件智能开发方法和环境》技术骨干,国家高质量专项《基于大模型技术的工业领域智能化开发工具项目》技术骨干,OpenHarmony技术指导委员会IDE TSG成员。
报告主题: 百度研发智能化探索与实践
自大模型兴起以来,行业普遍认为,AI时代已经到来,而在AI的浪潮之下,软件工程是发展最快、落地效果最为明显的方向,各类研发智能工具、智能体层出不穷,越来越多的优秀实践也在不断帮助企业释放软件研发生产力。对于研发智能化的发展阶段行业里也有一些定义,百度结合技术的演进和产品的迭代,将其定义为L1-加速器、L2-智能助理、L3-智能体组合、L4-自然语言即代码四个阶段,针对这四个阶段,百度在技术上的尝试、落地推广上的探索,以及最终在整体集团的研发效能上产生的价值,都将和大家进行分享和探讨
李佳
清华大学
李佳,清华大学人工智能学院助理教授,博士生导师。他于2025年在北京大学取得博士学位。他聚焦于程序语言处理(Programming Language Processing,PLP),探索面向代码理解和代码生成的人工智能技术,推动软件工程和具身智能等学科的自动化。近五年,他在NeurIPS、ACL、ICSE、ASE、FSE等 CCF A 类顶会/顶刊发表论文二十余篇,包含多篇Oral文章。论文多次被麻省理工学院、斯坦福大学等机构的研究者引用,累计达千余次。科研成果被《中国科技网》和《中国日报》等主流媒体报道。详情请见:https://lj2lijia.github.io/
报告主题: 基于强化学习的大模型推理能力提升
强化学习已成为提升大模型推理能力的关键技术,能够有效提升大模型在代码生成、数学推理等任务上的准确率。本次报告将分享三项近期工作:(1)针对训练据难扩展、数据难度不可控的问题,提出了:基于SAT问题的强化学习框架,高效合成大量难度可控的SAT问题,持续提升模型推理能力;(2)针对模型难以解决复杂问题、陷入探索瓶颈的问题,提出:基于自我进化的强化学习框架,引导模型逐步探索结题路径,摆脱探索瓶颈;(3)针对代码生成任务奖励稀疏的问题,提出:基于控制流图的细粒度奖励,在代码的控制流图层面给予更加密集的奖励信号,提升模型在单元测试生成上的表现。
冯熙栋
Google DeepMind
Xidong Feng is a research scientist at Google DeepMind. His research spans over generative model and Reinforcement Learning. He has published over 10 papers in top AI conferences or journals like NeurIPS, ICML and JMLR. He obtained his Ph.D. at Computer Science, University College London. He previously earned his BS degree from Tsinghua University.
报告主题: The Language of Action: Deliberate Minds in Games
Traditional reinforcement learning produces super-human reactive systems, capable of mastering games through trial-and-error with scalar reward. Yet, a critical dimension of intelligence remains unexplored: the ability to form a deep, deliberate, causal understanding of the game itself. This talk outlines a new direction for training AI beyond pure game play -- agents that not only play a game proficiently but also genuinely understand it and capable of creating novel content.   The journey begins with ChessGPT, a model that learns deliberative thinking from human collective experience. By co-training on millions of chess games and their associated strategic analyses, this model learns to connect actions to their underlying rationale, and forms a rich, structural understanding can be distilled from existing knowledge bases. The critical next step towards autonomy is then presented as Natural Language Reinforcement Learning (NLRL). By taking analogy from RL, NLRL presents how agent's can learn deliberative thinking through the agent's own life-stream of experience. We will also talk about our recent work on generating creative content in games.
6、科学智能体论坛
讲者介绍
朱濯缨
中国科学技术大学
朱濯缨,中国科学技术大学精准智能化学全国重点实验室特任教授,博士生导师,2024年入选国家创新人才青年项目。2013年本科毕业于中国科学技术大学材料化学专业;2019年获得加州大学圣地亚哥分校纳米工程专业博士学位,2020至2024年,在美国劳伦斯伯克利国家实验室Materials Project从事博士后研究。2024年5月加入中国科学技术大学,主要从事数据驱动的高通量材料计算和自动化计算流程设计,融合理论与实验的优势开发新型能源材料。
报告主题: 数据智能和理实迭代的科研范式探索
材料信息学是材料科学领域的新兴方向,旨在通过数据驱动和跨学科的方法加速材料研发和创新。数据库、软件代码、自动化工作流是其中重要的技术手段和基础设施。随着高性能计算、AI和机器人技术的进步,传统化学“试错法”面临着新兴研究范式改革。科研过程中,近似条件下的理论大数据与有限的实验小数据之间存在巨大差异,也阻碍了化学材料研发创新的应用落地。在AI for Science时代,新工具(大数据、AI、高通量计算与机器人实验)为化学材料智能创制提供了新手段。通过机器化学家的行动智能和高通量自动计算的思维智能,我们探索了理实交融的新科研范式,助力科研人员实现快速迭代和理实对齐,达成规模化、智能化科研的目标。
张铂
上海人工智能实验室
张铂,上海人工智能实验室-青年科学家。专注于多模态大模型、多智能体及其在AI自主科学发现、观点生成、推理领域的研究,已在CVPR/NeurIPS/ICLR/T-PAMI等国际权威会议和期刊发表学术论文40余篇。他在多智能体协同优化-感知决策方面的研究工作获国际知名自动驾驶厂商所举办的Waymo挑战赛冠军;研发了多智能体通用自主科学发现系统框架InternAgent、科学发现平台书生Intern-Discovery,并成功在WAIC2026发布。此外,在实验室作为核心成员参与研发:通用科学文献解析工具MinerU(42.1K github star),通用多模态大模型InternVL(8.8K github star)等知名开源项目。
报告主题: InternAgent:构建面向通用科研场景的闭环智能体系统
智能体正在加速科学研究范式的转变,不仅提升了研究效率,还大幅推动了科研领域创新发展。在这个报告中,我们主要介绍InternAgent,这是一种统一的闭环多智能体框架,用于在多个科学研究领域中进行智能体自主科学研究,帮助研究人员以前所未有的速度和精度解决这些领域中的复杂问题。InternAgent具有以下三个关键优势: 1)可扩展性:InternAgent在12项科学研究任务中展示了其多样性,能够生成创新性想法并自主提升基线代码的性能。 2)交互性:InternAgent提供了一个人类专家反馈和多智能体交互的接口,在自动化的端到端流程中实现了领域专家知识的无缝整合。 3)高效性:InternAgent在多个科学领域中取得了显著的性能提升,同时所需时间成本显著低于人类科研时间。例如,在化学产率预测任务中,InternAgent将准确率从27.6%提升至35.4%,仅用时12小时;在增强子活性预测中,准确率从0.65提高到0.79,仅用时4小时;在2D语义分割中,精度从78.8%提升至81.0%,仅用时30小时,而这些任务人类博士生都会花费数周甚至数月的时间来完成。
张鹏
天津大学
张鹏,天津大学教授、博士生导师、计算机学院副院长,入选国家级青年人才计划,长期致力于自然语言处理、 机器学习与量子力学、量子计算的交叉学科研究方向,近期研究聚焦于量子人工智能、以及其与大语言模型的交叉研究方向。已发表Nature Communications、ACM TOIS、ICML、NeurIPS、ACL、SIGIR、AAAI、KDD、ICLR等高水平论文60余篇,获得欧洲信息检索会议ECIR 2011 Best Poster Award,国际信息检索顶级会议SIGIR 2017 Best Paper Award Honorable Mention等奖励。
报告主题: LLM驱动的量子科学智能体
量子线路是量子计算中算法实现与实验验证的核心载体,其设计高度依赖完善的专家知识体系。受限于量子硬件实测的高昂成本,发展高效且自动化的线路生成与模拟实验机制,已成为推动量子智能持续发展的关键需求。基于课题组在量子智能领域多年研究积累,我们提出一种融合多种前沿算法的量子科学智能体。该智能体系统通过解析研究需求,驱动多个虚拟量子科学家基于异构知识背景进行协同讨论与博弈,自动完成量子线路的生成、参数优化等流程,为研究者提供全流程的辅助支持。
程然
香港理工大学
程然,香港理工大学数据科学与人工智能系及计算学系双聘副教授、校长青年学者,长期专注于人工智能系统可演化性研究,致力于构建具备自主学习与持续进化能力的智能系统,赋能复杂垂直领域应用。作为开源项目 EvoX 的发起人,推动构建面向演化计算的分布式 GPU 算力基座,高效解决复杂科学计算难题。与中国商飞、国家电网、华为等机构合作,推动了AI技术在智能制造、智慧电网、智慧城市等领域的落地转化。已发表论文130余篇,谷歌学术引用逾 1.7 万次,荣获 IEEE 计算智能学会杰出青年奖,连续入选 Clarivate 全球高被引科学家榜单、全球前2%科学家榜单。现任多个 ACM/IEEE 期刊副编,发起成立 IEEE 计算智能学会深圳分会并担任首届主席。
报告主题: 可持续进化的多智能体系统
本研究旨在突破传统大语言模型(LLM)在耐久性、跨域迁移及知识留存方面的局限,推动人工智能从依赖静态人类数据的“人类数据时代”迈向通过交互生成数据与沉淀经验的“体验时代”。为此,提出融合大模型“认知大脑”与小模型“专家之手”的演化智能体框架,并构建三层核心技术体系:(1)在原创算法层,采用小数据驱动的演化生成式设计,实现复杂工程问题的高效创新;(2)在计算平台层,构建GPU加速的演化计算平台EvoX,支持分布式并行、神经演化及复杂黑箱优化;(3)在智能体系统层,开发兼容Git的分布式多智能体协作与记忆系统EvoGit,实现去中心化协作与结构化知识沉淀。该体系已在多个工业与科研场景中验证了可持续进化智能体在复杂任务中的高效性与可扩展性。
陈颢天
清华大学
清华大学自然语言处理实验室任博士后,研究方向为大语言模型智能体与工具学习。获清华大学水木学者称号,博后面上资助,国资博士后计划等。发表十余篇论文,推出的MiniCPM4-MCP智能体模型累积下载量4000余次,参研的RD-Agent智能体在开源社区获7000余次星标。
报告主题: 大模型自主智能体与工具学习
得益于大语言模型技术的突飞猛进,大语言模型自主智能体通过感知环境、制定计划、调用外部工具并执行复杂任务,从而展现出更强劲的真实世界问题解决能力。通过学习如何选择、组合和使用搜索引擎、计算器、专业API接口等工具,智能体可以动态扩展自身能力,处理需要实时信息、复杂计算或专业领域知识的任务,为构建真正通用的人工智能奠定了基础。当前,大语言模型智能体工具学习领域正面临工具选择策略优化、多工具协作机制设计、工具理解与掌握方法等关键难题,同时在代码生成、数据分析、报告撰写、自动化科研等应用场景中展现出巨大潜力。理解大模型自主智能体与工具学习的发展现状和未来趋势,对于把握AI技术演进方向具有重要意义。
张启超
中国科学院自动化研究所
张启超,中科院自动化所 AI+科学研究部 项目研究员。长期从事强化学习算法研究,获得中国科学院院长优秀奖、CAAI优秀博士论文提名奖,北京市/天津市自然科学二等奖等。先后主持国自然面上及华为诺亚/美团/百度/长安汽车/易控智驾课题等,在IEEE TNNLS等国际权威期刊和国际会议ICLR、AAAI等发表论文50 余篇,先后获得ICRA Robomaster、DAI SMARTS国际比赛一等奖等10余项比赛奖励。
报告主题: 大语言模型的深度思考能力探索
从OpenAI O系列到DeepSeek R1,强化学习后训练在大语言模型中发挥了重要作用,深度思考模式展现出了强大的通用推理能力。本次报告将分享“磐石”长程推理团队在强化学习后训练方向的几个探索工作,包括大语言模型自主思考、强化监督一体化后训练等。
7、多智能体论坛
讲者介绍
李忠奎
北京大学
李忠奎,北京大学先进制造与机器人学院博雅特聘教授。从事无人集群协同控制与决策研究。撰写英文专著2部,发表期刊论文100多篇。入选国家杰青,教育部青年长江,全国百篇优博。获国家自然科学二等奖1项,教育部自然科学一等奖、二等奖各1项,中国指控学会科技进步一等奖1项,SCI期刊最佳论文奖2个。目前担任IEEE Transactions on Automatic Control等期刊编委。
报告主题: 形式逻辑和大模型融合驱动的集群任务规划方法
高效可靠的任务规划是多智能协同的关键,但在开放未知环境下新任务根据语义特征被不断在线动态触发时面临重大挑战。近期基于大语言模型(LLM)的场景推理和规划方法主要关注一次性、端到端解决方案,缺乏可解释性保证。针对该问题,我们提出了一个新的Dexter-LLM框架,其典型特点在于:1)基于线性时序逻辑(LTL)的复杂任务理解,突破了传统形式化方法的维数爆炸难题,实现了对复杂任务的多项式时间复杂度的分析与分解;2)基于LLM的在线子任务生成,充分利用形式化任务的本质偏序约束以及大模型的多层级思维推理,提高了推理准确性,推理过程透明、可解释;3)支持人在环验证,并具备对事件触发任务的在线适应能力。Dexter-LLM有效地融合了LTL的可解释性与LLM开放世界的推理能力。
董希旺
北京航空航天大学
董希旺,北京航空航天大学蓝天杰出教授(二级)、博士生导师,北京航空航天大学无人系统研究院院长、中国航空工业集团公司沈阳飞机设计研究所人工智能领域专业副总师、中国指挥与控制学会副秘书长,长江学者特聘教授、国防卓青、工信部杰青、北京市杰青、国家优青。长期从事飞行器集群智能协同技术研究,理论与实践并重,研发了基于无人机和无人车的集群智能协同验证平台并开展了系列试验验证,支撑完成三届空军无人争锋比赛无人机集群极速穿越飞行任务均获得最好成绩,蝉联固定翼集群科目冠军。以第一和通讯作者在IEEE TAC和TCST等汇刊以及Automatica等国际知名期刊发表SCI论文100余篇,累计他引8000余次,长期入选爱思唯尔中国高被引学者和全球前2%顶尖科学家,出版中英文专著5部,授权/受理国家发明专利80余项。先后获军事技术发明一等奖、中国自动化学会自然奖一等奖、中国指挥与控制学会技术发明一等奖等奖励和荣誉10余项,担任IEEE Robotics and Automation Letters、Unmanned Systems等期刊编委。
报告主题: 集群系统协同控制理论及在飞行器集群中的应用
集群智能是新一代人工智能的重要研究领域。飞行器是集群系统中的典型对象,在军事及民用领域都有着广阔的应用前景。协同控制是集群系统智能涌现的保障和途径。以飞行器集群为代表的集群系统具有大规模性、开放性、高动态性及强鲁棒性等典型应用特征。这些特征使得针对集群系统协同控制的相关算法能够分布式实现。本报告主要针对集群系统协同控制中的分布式时变编队控制技术、编队跟踪控制技术及编队-合围控制技术进行分别介绍,并结合在无人机集群上的系列飞行试验对所提出技术的有效性进行演示验证,最后以所参加的空军“无人争锋”智能无人机集群系统挑战赛密集编队穿越竞速的比赛为例进行应用展示,并对未来的可能发展方向进行概述。
王钢
北京理工大学
王钢,北京理工大学自动化学院教授、博士生导师,研究无人系统数据驱动控制和世界模型学习。入选中组部人才专项、海外高层次人才引进项目等,主持国家重点研发计划项目、国家自然科学基金联合重点项目等,在IEEE TIT/TAC/TSP等汇刊发表期刊论文60篇,NeurIPS/ICRA/IROS/CDC等国际会议发表论文60篇。获ICCA最佳论文奖、IEEE信号处理学会“优秀编委奖”、中国工程院院刊《信息与电子工程前沿(英文版)》“最佳论文奖”、欧洲信号处理会议“最佳学生论文奖”、中国自动化学会自然科学一等奖、“优秀博士论文奖”等。现担任IEEE Control Systems、IEEE Trans. Signal and Information Processing over Networks、IEEE Open Journal of Control Systems等期刊编委,以及中国自动化学会控制理论专业委员会委员、中国自动化学会具身智能专委会副主任委员等。
报告主题: 世界模型与机械臂操作
世界模型通过“想象”生成数据,显著提升了样本效率并降低了训练成本,是实现智能体高效自主决策的关键途径。本报告介绍了我们在世界模型方面的三个初步成果。提出基于Transformer架构的世界模型STORM,在Atari 100k基准上取得SOTA性能,训练时间和资源消耗显著低于经典DreamerV3算法。DyMoDreamer 通过引入动态调制机制,提升模型对环境变化的敏感性,在Atari 100k与DMControl等多个基准中均取得SOTA性能。SBR用状态检索构建高质量策略,在模仿学习中实现了对DreamerV3的全面超越。这些成果展示了世界模型强化学习的核心优势与应用潜力,并为智能体在复杂环境中的高效决策提供了新的思路。
吴翼
清华大学
吴翼,清华大学交叉信息研究院助理教授,曾任OpenAI全职研究员,研究领域为深度强化学习,多智能体学习,推理模型,人机交互等。2019年在美国加州大学伯克利分校获得博士学位,师从Stuart Russell教授;2014年本科毕业于清华大学交叉信息院计算机科学实验班(姚班),代表作包括强化学习泛化性早期工作Value Iteration Network,多智能体学习最高引算法 MAPPO/MADDPG,OpenAI多智能体捉迷藏项目等,还曾获得顶级会议NIPS2016 best paper award和ICRA2024 best demo award finalist.
报告主题: AReaL: a Large-Scale RL System for LLM Agents
LLM Agent has been a new trending form of LLM applications, which can actively plan, reason and take actions to accomplish long-horizon tasks. In this talk, we present insights on how to use RL to train a strong LLM agent in an end-to-end way using our large-scale RL system AReaL. AReaL supports a flexible interface to define customizable agent workflows and enables 3-5x training speedup by fully asynchronous RL. The project is fully open-sourced at https://github.com/inclusionAI/AReaL
温颖
上海交通大学
温颖,上海交通大学人工智能学院长聘教轨副教授,博士生导师。他的研究方向涉及强化学习、多智能体系统及决策大模型。他于2020年和2016年分别获得英国伦敦大学学院计算机系博士学位和研究型硕士学位,入选上海海外高层次人才,作为负责人主持自然科学青年基金,国家重点研发计划课题,上海市科学智能百团百项,上海市青年科技英才扬帆计划。他的五十余篇研究成果发表在ICML, NeurIPS, ICLR, IJCAI, AAMAS等相关领域的一流国际会议上。曾获CoRL 2020最佳系统论文奖,AAMAS 2021 Blue Sky Track最佳论文奖,WAIC’25云帆奖璀璨明星提名奖。他连续多年担任ICML, NeurIPS, IJCAI, AAAI, IROS, ICAPS, Operational Research等国际知名会议/期刊的PC成员或审稿人。
报告主题: 基于强化学习的大模型智能体能力扩展方法
大模型的能力提升依赖于持续获取高质量的数据和反馈信号。虽然预训练阶段已利用大量优质数据,但持续增长的关键在于不断引入新的高质量数据。由于人工数据生产成本高且难以满足需求,探索大模型自我迭代生成和筛选数据的方法变得至关重要。本讲座将探讨大模型基于强化学习的数据再生产过程,其核心挑战在于持续自动化设计并扩展大模型的任务环境、奖励信号,通过应用不同级别的反馈信号进行强化学习,确保只有最有价值的数据用于模型的迭代训练,激发大语言模型的包括认知与元认知能力在内的各项智能能力,以提升大语言模型智能体的泛化能力和决策任务性能。
郭振华
天翼交通科技有限公司
郭振华,男,博士,毕业于香港理工大学。先后在清华大学、阿里云、美国卡耐基梅隆大学等单位工作和访问,现为天翼交通科技有限公司车路协同首席科学家,清华大学/北理工/东南大学等企业导师,正高级工程师。获得广东省人才优粤卡(A卡)、深圳市海外高层次人才、深圳市领军人才等人才称号。主要研究领域为人工智能,计算机视觉,模式识别等领域。近年来在相关领域(IEEE Transactions on Pattern Analysis and Machine Intelligence,IEEE Transactions on Image Processing, IEEE Transactions on Neural Networks and Learning Systems,IEEE Transactions on Information Forensics & Security,IEEE Transactions on Instrumentation and Measurement,International Journal of Computer Vision等)JCR1区期刊和相关领域国际顶级会议(ICCV,ECCV,CVPR,ICLR等)发表论文100余篇,引用近万次。担任The Visual Computer、Electronics等期刊副主编。授权发明专利27项,其中2项美国专利。主持和参与包含国家自然科学基金、863等科研项目10余项,科研经费近千万。曾担任多个国内和国际会议的会议主席和组委会成员。获得国家技术发明奖、中国汽车工程学会科技进步奖、教育部自然科学奖、深圳市青年科技奖、爱思唯尔中国高被引学者、全球前2%顶尖科学家(World's Top 2% Scientists)、中国电子学会科学技术奖、吴文俊人工智能科技进步奖、广东省科学技术奖等十余项奖励。
报告主题: 智能体赋能车路云一体化
随着行业共识从单车智能向车路云一体化转变,车路协同被视为自动驾驶发展的重要方向。车路协同引入路侧更广阔的视野范围,可实现超视距感知,超越人类驾驶能力上限。然而,目前车路协同在实际应用中仍面临诸多挑战,如数据质量不佳、网络稳定性不足、渗透率不高等问题,制约了行业的规模化发展。 从企业自身及技术角度看,车路协同发展需构建技术闭环与商业闭环。技术层面聚焦“车-路-云-网-图”五大要素融合,商业层面则需通过运营服务实现价值转化。本报告重点分享天翼交通结合智能体在智能驾驶和智慧交通的一些应用实践。
8、计算经济学论坛
讲者介绍
郑舒冉
清华大学
Shuran Zheng is a tenure-track Assistant Professor in the Institute for Interdisciplinary Information Sciences at Tsinghua University. She obtained my Ph.D. in Computer Science from Harvard University, and was a postdoctoral researcher at Carnegie Mellon University, a Student Researcher in the Market Algorithms Group at Google Research NYC. Her research lies at the intersection of Computer Science and Economics, and she is particularly interested in understanding the value of data and information. She explores various areas including data valuation, data markets, information elicitation, information aggregation, and information design.
报告主题: Proper Dataset Valuation by Pointwise Mutual Information
Data plays a central role in the development of modern artificial intelligence, with high-quality data emerging as a key driver of model performance. This has prompted the development of various data curation methods in recent years. However, measuring the effectiveness of these data curation techniques remains a major challenge. Traditional evaluation methods, which assess a trained model's performance on specific benchmarks, risk promoting practices that merely make the data more similar to the test data. This issue exemplifies Goodhart’s law: when a measure becomes a target, it ceases to be a good measure. To address this, we propose an information-theoretic framework for evaluating data curation methods, where dataset quality is measured by its informativeness about the true model parameters using the Blackwell ordering. We compare informativeness by the Shannon mutual information of the evaluated data and the test data, and we propose a novel method for estimating the mutual information of datasets by training Bayesian models on embedded data and computing the mutual information from the model’s parameter posteriors. Experiments on real-world data demonstrate that our mutual information-based evaluation assigns appropriately lower scores to data curation strategies that reduce dataset informativeness, while traditional test score-based evaluation methods may favor data curation strategies that overfit to the test set but compromise the training data's informativeness.
赵玮
清华大学
2022年毕业于巴黎高等商学院,研究方向包括数据 与算法经济学,网络经济学。文章发表于Theoretical Economics, International Economic Review 和Games and Economic Behavior
报告主题: Privacy-constraint Signals
This paper provides a unified approach to characterize the set of all feasible signals subject to privacy constraints. We first show that the Blackwell frontier of feasible signals always induces Blackwell frontier of privacy variables. We then show that the Blackwell frontier of feasible signals can be uniquely decomposed into least informative signals achieving the Blackwell frontier of privacy variables, and conditionally privacy preserving signals. The approach is applied to study constraints on distribution of posterior expectation of any random variables, and epsilon-inferential privacy constraints. Part of the results can be generalized to characterize the set of feasible signals on partially revealing variables
孔雨晴
北京大学
孔雨晴,现任北京大学前沿计算研究中心长聘副教授,博士生导师,北京大学博雅青年学者。2018年8月博士毕业于密歇根大学安娜堡分校计算机系,理论计算机方向。2013年6月毕业于中国科学技术大学数学系。主要研究方向是理论计算机与经济学的交叉方向,包括机制设计、信息激励、群体智慧等。在J. ACM,ACM EC,WWW,WINE,ITCS,ACM TEAC,SODA,NeurIPS,ICML,ICLR,AAAI,IJCAI,ECCV等会议期刊发表若干论文,担任ACM EC、WINE和ICALP等会议的程序委员会成员,并担任CCF A类会议WINE 2023的程序委员会主席,以及CCF计算经济专业组的执行委员。
报告主题: Algorithmic Robust Forecast Aggregation
Forecast aggregation combines the predictions of multiple forecasters to improve accuracy. However, the lack of knowledge about forecasters' information structure hinders optimal aggregation. Given a family of information structures, robust forecast aggregation aims to find the aggregator with minimal worst-case regret compared to the omniscient aggregator. Previous approaches for robust forecast aggregation rely on heuristic observations and parameter tuning. We propose an algorithmic framework for robust forecast aggregation. Our framework provides efficient approximation schemes for general information aggregation with a finite family of possible information structures. In the setting considered by Arieli et al. (2018) where two agents receive independent signals conditioned on a binary state, our framework also provides efficient approximation schemes by imposing Lipschitz conditions on the aggregator or discrete conditions on agents' reports. Numerical experiments demonstrate the effectiveness of our method by providing a nearly optimal aggregator in the setting considered by Arieli et al. (2018).
蔡庆芃
快手
Qingpeng Cai is currently a Senior Staff Research Scientist at KuaiShou Technology, where he is responsible for business optimization and technical management. He received his Ph.D. from the Interdisciplinary Information Sciences program at Tsinghua University. His core research focuses on Reinforcement Learning and its applications to Large Language Models and practical domains (Recommender Systems and Advertising). He has published over 35 papers in top-tier AI conferences and serves as an Area Chair/Program Committee Member for prestigious conferences including NeurIPS, ICLR, ICML, AAAI, and AAMAS. He was awarded the 2024 Qian Weichang Prize for Chinese Information Processing Science and Technology (First Prize in Natural Sciences). Additionally, he led his team to win dual-track championships in the NeurIPS 2024 Auto-Bidding in Large-Scale Auctions Competition.
报告主题: A New Paradigm for Generative Auto-Bidding
Auto-bidding is essential in facilitating online advertising by automatically placing bids on behalf of advertisers. Generative auto-bidding, which generates bids based on adjustable conditions using models like transformers and diffusers, has recently emerged as a new paradigm due to its potential to learn optimal strategies directly from data and flexibly adapt to diverse preferences. However, two critical challenges persist when deploying generative models in advertising systems: 1)Theoretical performance ceilings arising from training on offline suboptimal datasets; 2)Difficulty in adapting to dynamic real-time bidding environments. In this talk, we reshape the generative auto-bidding paradigm by drawing inspiration from large language model principles, introducing innovations across both training and inference phases: 1)Training phase: We propose GAVE (SIGIR 2025), enhancing exploratory learning during training. 2)Inference phase: We present GAS (WWW 2025), which strengthens environmental adaptability through inference-time search. Experimental results on offline datasets and real-world deployments demonstrate that both GAVE and GAS outperform state-of-the-art baselines in offline evaluations and online A/B tests. By implementing this framework’s core methodology, we secured first place in the NeurIPS 2024 Competition: "AIGB Track: Learning Auto-Bidding Agents with Generative Models".
祁琦
中国人民大学
祁琦,中国人民大学高瓴人工智能学院长聘副教授,博导,国家高层次青年人才,CCF中国计算机学会计算经济学专委秘书长,中国人民大学智慧治理学院兼职博导。博士毕业于美国斯坦福大学,师从冯·诺伊曼奖获得者叶荫宇教授。曾任香港科技大学助理教授。主要研究方向包括 (1)算法博弈论与机制设计(2)生成式大模型架构设计与应用(3)多智能体系统(4)大模型应用(5)优化与智能决策(6)智慧治理。 研究成果在人工智能、计算机理论科学、运筹与优化、经济等领域的多个顶级期刊如 Information and Computation, OR,MOR, TR-B,GEB,EJOR 和 CCF-A 类会议如STOC, ICML,ACL, IJCAI, AAAI, KDD, NeurIPS, SIGIR, WWW, WINE 等发表。在互联网广告上的研究和应用成果获得了两项美国专利。任CCF-A类会议WINE2014及WINE2024的程序委员会主席。主持多项香港科学基金研究项目和国家自然科学基金项目。在平台经济、在线广告、多智能体系统、大模型应用等方向与阿里、百度、字节、华为、美团、腾讯等均有紧密合作,研究成果已在多家企业落地。
报告主题: AI-Driven Mechanism Design for Online Advertising
Advertising has long constituted a principal revenue stream for online platforms. Traditional operational models offer marketing services to brands and stores in a separated manner. However, with the rapid evolution of platform economics, market participants increasingly demand enhanced marketing efficiency, prompting the need for innovative resource allocation mechanisms. This study introduces a novel joint auction model, where brands and stores engage in collaborative bidding to acquire consumer attention. By facilitating bidding coalitions, this model significantly improves the efficiency of e-commerce platforms. From a mechanism design perspective, the joint auction paradigm presents unique technical challenges, including non-independent bidding behaviors and complex equilibrium characterization due to interdependent valuations. To address these issues, we integrate deep learning techniques to develop the JAMA architecture, which ensures full incentive compatibility, applies to static joint relationships, and achieves better revenue than VCG; the JRegNet architecture, which satisfies approximate incentive compatibility, adapts to dynamic joint relationships, and aims to achieve optimal revenue; the BundleNet architecture centered on joint relationships; and the JTransNet architecture that meets anonymity and deterministic allocation constraints. Additionally, to meet the essence of two-stage auctions and the diversity requirements, we further design the Hybrid model. Our solutions have been deployed in practice and have achieved significant revenue improvements.
9、具身智能论坛
讲者介绍
曾嘉
上海人工智能实验室
曾嘉,上海人工智能实验室具身智能中心青年研究员,具身智能中心操作智能方向负责人,研究方向为机械臂操作、视觉-语言-动作大模型。23年博士毕业于上海交通大学。在国际知名会议与期刊RSS、CVPR、NeurIPS、IEEE T-PAMI等发表论文30余篇。曾获中国博后基金面上资助、上海“超级博士后”。入选CAAI具身智能专委会委员。
报告主题: InternVLA-A1:理解、想象、执行一体化的具身操作大模型
本报告将介绍上海人工智能实验室具身智能中心最新推出的具身操作大模型InternVLA-A1。该模型以InternVL3为基座,基于一个统一的Transformer架构,集场景理解、任务想象与精准执行能力于一体。其中,场景理解模块以图像和文本为输入,用于解析任务指令并理解任务场景;基于场景理解的解析结果,任务想象模块通过预测未来图像的形式,想象执行任务的未来演变;最终,动作执行模块在任务想象的指导下,通过Flow Matching过程输出机器人控制指令。该模型融合了上海人工智能实验室的虚实混合操作数据集、上海国地中心实训场数据及互联网多源异构数据进行联合训练,从多源异构机器人、多场景数据中获取了广泛、通用的操作知识。在真机评测和开源仿真评测基准上,InternVLA-A1显著优于pi0及gr00t n1.5,且模型已适配方舟无限、松灵、国地青龙人形机器人、智元Genie、Franka等多款机器人本体。
徐梦迪
清华大学
徐梦迪是清华大学交叉信息研究院助理教授,本科毕业于清华大学,博士毕业于卡耐基梅隆大学,之后在斯坦福大学开展博士后研究。她的研究聚焦于可泛化的机器人学习与强化学习,致力于推动机器人具备高效、鲁棒地解决未知任务的通用智能能力。她的研究成果已发表于ICML、NeurIPS、ICLR、AISTATS、CoRL、NAACL等国际会议,并曾入选RSS Pioneers 2023、EECS Rising Stars 2023以及Computational & Data Science Rising Stars 2023。
报告主题: Building Adaptable Generalist Robots: A human-centered Perspective
In an open-ended world, robots inevitably encounter tasks they have never seen before. A household robot may need to execute long-horizon tasks with novel combinations, or adapt to new human preferences and instructions. Such real-world scenarios present significant challenges and demand strong generalization capabilities before large-scale robot deployment. In this talk, I will discuss two key directions for enabling generalization in robots: (1) addressing the problem of data scarcity, and (2) enabling continual adaptation without relying on large amounts of expert data. First, I will discuss approaches for generating large-scale robot data in household environments, particularly for tasks requiring long-horizon mobile manipulation. Second, I will discuss how robots can continually adapt to unconstrained human preferences by acquiring new skills through reinforcement learning.
胡迪
中国人民大学
胡迪,现任中国人民大学高瓴人工智能学院副教授,博导。主要研究方向为机器多模态感知、交互与学习,以主要作者在T-PAMI/ICML/CVPR/CoRL等人工智能顶级期刊及会议发表论文60余篇,代表性工作如视音指代分割与问答;平衡多模态学习理论,机制与方法;面向物体操纵的动态多模态交互算法等。作为副主编出版本科教材一部。曾入选 CVPR Doctoral Consortium;荣获2020中国人工智能学会优博奖;荣获2022年度吴文俊人工智能优秀青年奖;入选第七届中国科协青托计划、微软铸星学者、智源学者等。所指导学生获百度奖学金(全球10人)。担任AAAI、IJCAI Senior PC等,主办/协办多场国际顶级会议的多模态学习讲习班(Tutorial)。
报告主题: 观察-协作-反思:从示教与交互中学习物体操纵
物体操纵能力的习得一般源自两种途径,即从示教中模仿或从交互中历练。从示例中学习是一种能力快速增长的有效方式,但其有限的探索空间所形成的能力瓶颈却制约着对外界环境特性的深刻理解与操纵行为的有效规划;而同环境的交互能够提供可拓展的探索空间和丰富的信息反馈,但是其高昂的探索成本却阻碍着操纵能力的持续增长。在本次报告中,我将以“观察-协作-反思”的技术路径,思考如何从示教学习出发,以矫错为核心,将形成的基础能力逐步拓展到交互学习场景中,以高效支持物体操纵能力的持续提升,进而形成示教与交互协同支撑的操纵能力习得。
顾家远
上海科技大学
顾家远,上海科技大学信息科学与技术学院助理教授、研究员、博士生导师。顾家远博士毕业于美国加州大学圣迭戈分校,师从苏昊教授。2018年本科毕业于北京大学信息科学技术学院智能科学系。他曾在Facebook AI、Google DeepMind等顶尖科研机构实习。他的研究方向为具身智能,聚焦于可泛化的机器人决策模型和面向具身智能的三维视觉,在计算机视觉、机器学习、机器人等国际顶会上均有发表。他参与的项目Open X-Embodiment获得了ICRA 2024的最佳论文奖,指导的项目CAST获得了SIGGRAPH 2025的最佳论文奖。此外,他还获得了2025年WAIC 云帆奖明日之星荣誉。
报告主题: 结构化三维理解与决策
对三维物体的几何结构、功能属性和运动轨迹进行结构化理解,能够显著增强智能体对操作场景的认知能力,并提升其在未知情境中的泛化能力。本报告将介绍我们近期在三维部件标注与功能语义驱动的决策建模方面的两项工作:其一,我们提出了PartNeXt——一个新的部件级标注数据集。相较于PartNet,PartNeXt采用了更直观的标注流程,支持直接在带纹理的网格模型上进行标注,无需进行重网格化等预处理操作,大幅提升了标注效率与易用性。其二,我们提出了AffordDP模型,该模型通过挖掘部件间的语义相似性,并借助少量示例数据,实现操作技能在不同物体之间的有效迁移与泛化。
齐臣坤
上海交通大学
上海交通大学机械与动力工程学院副教授、博士生导师。本科和硕士毕业于上海交通大学,博士毕业于香港城市大学。主持承担国家自然科学基金、国家重点研发计划课题等国家级项目多项,主要研究领域为足式机器人、并联机器人的设计与控制。担任ASME Journal of Mechanical Design副主编,为中国自动化学会机器人专委会委员,获吴文俊人工智能科学技术奖。
报告主题: 足式机器人强化学习运动控制
足式机器人是当前机器人领域的研究热点和前沿,复杂地形下的运动控制仍然具有很大挑战,强化学习是重要的研究方向。本报告将介绍基于本体感知的强化学习运动控制,包括高速鲁棒行走强化学习、多步态技能强化学习、受限空间行走强化学习、摔倒恢复强化学习等方面,也将介绍融合外部感知的强化学习运动控制,以及移动操作全身控制的强化学习,主要研究对象为四足机器人、六足机器人、带机械臂四足机器人、球形六足机器人等。
穆尧
上海交通大学
穆尧,上海交通大学人工智能研究院长聘教轨助理教授,博士毕业于香港大学计算机系,共在RSS, NeurIPS, ICML, ICLR, CVPR等顶会顶刊发表论文30余篇,谷歌学术引用超1700余次,曾获ECCV具身智能研讨会最优论文奖, IEEE ICCAS2020大会最优学生论文奖,IEEE IV2021最优学生论文提名奖, 中国自动化学会自主机器人研讨会奖学金等多项学术奖励,荣获香港博士政府奖学金,香港大学校长奖学金,国家奖学金,清华大学优秀硕士毕业生,清华大学优秀硕士论文奖等荣誉称号。研究方向:具身智能、强化学习、机器人控制和自动驾驶。
报告主题: 生成式大模型驱动的具身智能大规模高质量数据合成
本报告介绍 RoboTwin 2.0开源平台——基于生成式大模型构建“仿真→合成→训练→迁移”闭环的具身智能数据引擎。平台通过多模态大模型自动生成任务代码 (闭环迭代优化成功率提升50%),结合五维域随机化方案 (覆盖物体分布、动态光照、多模态背景、桌面位姿及语义指令扰动)合成高保真仿真数据,并开放包含147类731个精细标注物体的标准化资产库,为学界与工业界提供可扩展的合成数据基础设施,推动具身智能研究范式革新。
10、多模态智能体论坛
讲者介绍
李浩然
中国科学院自动化研究所
李浩然,中国科学院自动化研究所副研究员,硕士研究生导师。主要研究方向为深度强化学习及其在具身系统中的应用,在IEEE TNNLS/TCYB/TSMCS等国际期刊和NeurIPS,ICLR,RSS,ICRA,CoRL,AAMAS,ICME等国际会议上发表论文30余篇,承担和参与了国家自然科学基金青年项目、国家自然科学基金重大项目子课题、以及国家自然科学基金重点项目。在国内外多个机器人赛事中获得5项冠军、3项一等奖,获得北京市科学技术奖自然科学二等奖。
报告主题: 强化学习在多模态具身大模型中的应用
近年来,多模态具身大模型在机器人通用任务规划和控制领域展现了巨大潜力。然而,现有模型在开放场景下的泛化性、动态干扰下的鲁棒性以及精细操作任务的执行精度方面仍面临显著挑战。另一方面,强化学习在大语言模型、多模态大模型以及机器人运动控制方面展现出巨大的潜力。如何将强化学习与多模态具身大模型结合,通过预训练和后训练缓解上述具身大模型所面临的问题是当前领域发展前沿。这次报告中我们将通过面向具身大模型的强化学习方法设计以及具身大模型预训练和后训练等方面分享强化学习与具身大模型结合的相关工作进展。
李庆
北京通用人工智能研究院
李庆,北京通用人工智能研究院研究员,通用智能体中心副主任,博士毕业于美国加州大学洛杉矶分校(UCLA)。研究领域包括多模态理解,通用智能体,具身智能等。已在国际顶级会议上发表论文30多篇,包括CVPR / ICCV / ICML / ICLR / NeurIPS 等。曾获ICMR 2016最佳论文候选奖,ICML 2020研讨会最佳论文奖,UCLA 博士论文奖。
报告主题: Bridging the Data Gap: From Synthetic Trajectories to Autonomous Exploration for Tool-Using Multimodal Agents​
Training effective multimodal agents capable of using external tools requires high-quality data for trajectory learning, but acquiring this data via human annotation is prohibitively expensive and impractical, especially for complex tasks. This talk presents two synergistic approaches developed to overcome this critical data bottleneck. First, I will introduce ​a multi-modal agent tuning method that automatically generates multi-modal tool-usage data and tunes VLMs as the controller for powerful tool-usage reasoning. Then I will discuss an iterative tool usage exploration method for multimodal agents without any pre-collected data via step-wise preference optimization to refine the trajectories of tool usage.
徐航
Huawei Technologies Co., Ltd.
华为计算机视觉与人工智能技术专家,专注于深度学习、自动驾驶和多模态大模型。推动高层语义识别技术在华为云、终端小艺、自动驾驶等商业化落地。 曾在 AI 顶级会议(如 CVPR 、NeurIPS 、ICLR)发表 120 余篇论文,拥有丰富的业界研究与落地经验。 Google Scholar Citation 9000+
报告主题: Unified Multimodal Understanding and Generation:Self-enhancing and GRPO
This talk presents recent progress in building unified multimodal large language models (MLLMs) that integrate visual understanding, image generation, and editing within a single framework. We introduce ILLUME and ILLUME+, which leverage semantic-aware and dual visual tokenization, diffusion-based refinement, and self-enhancing alignment to achieve strong performance across diverse multimodal tasks. We further highlight a reinforcement learning approach, Group Relative Policy Optimization (GRPO), that enables coherent interleaved text–image generation without large-scale interleaved datasets. Together, these works demonstrate how unified architectures and RL-based post-training can jointly advance the reasoning and creative capabilities of MLLMs.
仉尚航
北京大学
仉尚航,北京大学计算机学院研究员、博士生导师、博雅青年学者、智源学者。致力于开放环境泛化机器学习理论与系统研究,Google Scholar引用数1.8万次,荣获世界人工智能顶级会议AAAI’2021 最佳论文奖。由Springer Nature出版《Deep Reinforcement Learning》,至今电子版全球下载量近三十万次,入选中国作者年度高影响力研究精选。入选美国“EECS Rising Star”、“全球AI华人女性青年学者榜”、“中国科协青年百人会”、“AI100青年先锋”。曾获多项国际竞赛前三名,曾多次在国际顶级会议NeurIPS、ICML上组织Workshop,担任AAAI 2022-2026 高级程序委员。仉尚航于2018年博士毕业于美国卡内基梅隆大学,并于加州大学伯克利分校从事博士后研究。
报告主题: 具身智能视觉-语言-动作多模态大模型研究
具身多模态大模型引领了人工智能与机器人融合研究的新范式,而现实世界中的具身智能体往往面对开放环境中跨本体、跨场景、跨任务等泛化性挑战,已有的多模态大模型面临不好用、不易用、不通用的关键难题。本次报告将介绍一系列关于具身多模态大模型的研究工作,并重点介绍具身智能端到端视觉-语言-动作大模型的相关研究,最后介绍具身智能大规模数据集的构建。
李鸿升
香港中文大学
李鸿升博士现任香港中文大学多媒体实验室副教授,上海交通大学、中国科学技术大学兼职博士生导师,曾任西安电子科技大学“华山学者”讲座教授。他于2006年获华东理工大学自动化学士学位,2012年于美国理海大学获得计算机科学博士学位。他在人工智能、计算机视觉、医学图像处理有着深厚的研究经验,在相关顶级期刊和会议上(TPAMI、CVPR、ICCV、ECCV、NeurlPS、ICLR、ICML等)发表论文230余篇,谷歌学术引用超过6万次。获得了2020年IEEE电路与系统协会杰出青年作者奖、2021年香港中文大学青年学者杰出研究成就奖、2025年香港中文大学研究卓越奖、2022年-2024年全球前2%顶尖科学家、2022年-2024年AI 2000人工智能最具影响力学者提名奖等奖项。2016年带领团队参加ImageNet 2016国际挑战赛,赢得了视频物体检测项目第一名。他担任国际顶级学术会议ICCV 2025和CVPR 2026高级领域主席,NeurIPS 2021-2023, 2025、CVPR 2023、ICCV 2023、ICML 2023-2025、ACM MM 2024-2025领域主席,AAAI 2022高级程序委员,国际期刊IEEE Transactions on Circuits and Systems for Video Technology、Transactions on Machine Learning Research、Neurocomputing等的副编辑。
报告主题: 基于智能手机GUI操作的智能体
在大语言模型不断拓展AI边界的今天,智能手机智能体正成为实现通用移动交互的关键载体。然而,现有方法仍面临高质量标注数据匮乏、操作轨迹验证困难以及跨场景泛化能力有限等挑战。针对上述问题,我们提出了一系列解决方案训练基于智能手机GUI操作的智能体。1)在数据构建层面,推出了AMEX数据集,包含超过10万张高分辨率截图的多层级标注,为GUI智能体提供了丰富的训练与评估基础。2)在模型优化层面,提出了UI-Genie自改进框架,通过奖励模型与自演化轨迹合成机制,实现了无需人工标注的高质量轨迹合成与自主优化。3)在高效训练层面,提出了UI-R1强化学习框架,首次将规则驱动的强化学习引入GUI动作预测,仅用百余条样本显著提升了跨场景泛化能力与训练效率。
11、人机交互论坛
讲者介绍
王天宇
复旦大学
王天宇博士现任复旦大学上海数学中心中心青年副研究员。王天宇毕业于杜克大学,本科毕业于香港科技大学,研究方向为机器学习、离散概率。曾入选“上海(海外)领军人才”计划(现白玉兰计划),获上海扬帆项目资助等。
报告主题: Bandit learning in metric spaces via narrowing
Bandit learning in metric spaces focuses on finding the optimum as efficiently as possible, under bandit feedback. These problems leverage only the underlying metric properties.  In this talk, we present the "narrowing" methods for such problems. We demonstrate that, for important reward function classes, this method simultaneously achieves: 1. Optimal adaptation to the function landscape,  2. Optimal batch complexity. 
董力
微软亚洲研究院
董力,微软亚洲研究院通用人工智能组(General AI Group)首席研究员,博士毕业于爱丁堡大学。他致力于提升机器智能的广度与深度。曾获得多项学术荣誉,包括ACL-2018最佳论文荣誉提名、2019 AAAI/ACM SIGAI博士论文奖亚军、AAAI-2021最佳论文亚军、CVPR-2024最佳学生论文奖以及ICCV-2025研讨会最佳论文亚军。董力博士积极参与学术社区服务,在ACL、NeurIPS、ICML、ICLR、AAAI、IJCAI等多个顶级人工智能会议中担任(高级)领域主席,并担任ACL Rolling Review和Transactions on Machine Learning Research的执行编辑。
报告主题: Reinforcement Pre-Training​
In this presentation, we introduce Reinforcement Pre-Training (RPT) as a new scaling paradigm for large language models and reinforcement learning (RL). Specifically, we reframe next-token prediction as a reasoning task trained using RL, where it receives verifiable rewards for correctly predicting the next token for a given context. RPT offers a scalable method to leverage vast amounts of text data for general-purpose RL, rather than relying on domain-specific annotated answers. By incentivizing the capability of next-token reasoning, RPT significantly improves the language modeling accuracy of predicting the next tokens. Moreover, RPT provides a strong pre-trained foundation for further reinforcement fine-tuning. The scaling curves show that increased training compute consistently improves the next-token prediction accuracy. The results position RPT as an effective and promising scaling paradigm to advance language model pre-training.
秦禹嘉
字节跳动
本科和博士就读于清华大学,目前任字节跳动Seed算法研究员,主要研究方向为AI自主智能体
报告主题: GUIAgent前沿进展
GUI Agent 是当前智能体研究的重要前沿,其发展路径经历了从框架化到模型化的转变。近年来,大规模数据和新型训练范式推动了该领域快速进步,多个基准测试显示最新模型在感知、 grounding 与多步任务执行上已显著超越传统方法,展现出在真实应用中更强的泛化与鲁棒性。本次报告将分享该领域的前沿技术进展。
李崇轩
中国人民大学
李崇轩,中国人民大学高瓴人工智能学院副教授,博士生导师,主要研究生成模型,带领课题组研制扩散大语言模型LLaDA,视觉扩散模型相关成果部署于DALL·E 2、Stable Diffusion、Vidu等行业领先模型,获ICLR 2022 杰出论文奖、吴文俊人工智能自然科学一等奖;入选智源学者、吴文俊优秀青年、北京市科技新星;主持国家自然科学基金青年科学基金B类、重大培育项目等;担任IEEE TPAMI 编委和ICLR、NeurIPS等国际会议的领域主席(AC)。 个人主页: zhenxuan00.github.io 邮箱: mailto:chongxuanli@ruc.edu.cn 手机:15201523592
报告主题: LLaDA:大语言模型新范式
本次报告聚焦一个问题:自回归是否是通向当前乃至更高水平的生成式智能的唯一范式?本次报告首先从统一概率建模的视角总结当前基础生成模型的发展,并从这个视角出发指出大语言模型的性质(如可扩展性、指令追随、情景学习、对话、无损压缩)主要来自于生成式准则,而非自回归建模独有。基于这些洞察,介绍扩散大语言模型LLaDA系列工作,包括基础理论、扩展定律、大规模训练、偏好对齐和多模态理解等。LLaDA通过非自回归的方式,展示了令人惊讶的可扩展性和多轮对话能力。这些结果不仅挑战了自回归模型的统治地位,更加深了我们对生成式人工智能的理解。
周凡
上海交通大学
周凡,上海交通大学生成式人工智能实验室(GAIR Lab)博士一年级学生。其研究成果发表于 ICML、ICLR、NeurIPS、COLM 等国际顶级人工智能会议。他的研究方向包括:① 智能体 (Agent) 模型能力提升与智能体框架构建;② 数据驱动的基础模型开发。
报告主题: 智能体编程的探索、实践、与自省:以 CLI-based Vibe-Coding 为例
本报告将以“智能体编程(Agentic Coding)”为主线,首先界定其内涵与关键特征,梳理“Model-as-Agent”范式下主流大模型能力与代表性编程智能体框架的最新进展。随后结合 Qwen-Code 与 Qwen3-Coder 的探索性实践,分享在 CLI 场景中推进 Vibe Coding 的设计哲学、交互范式与评测要点,以及在记忆与工具编排、任务分解与自我反思(self-reflection)、鲁棒性、成本-延迟权衡等方面的工程经验与教训。最后,面向未来,报告将讨论作者自己对于智能体编程的演进路径与开放问题,包括可控性与可验证性、协作式多智能体、与基础模型的协同共演等。
叶绿满山
上海交通大学
她的研究课题集中在自然语言处理与人机交互的交叉领域,主要包括:①人机协同与自主性 ②利用数据支架提升大模型推理能力③以人为中心的智能系统。研究目标是探索如何构建更高效的人机沟通层,让 AI 成为真正的合作伙伴。此前,其研究成果发表于CHI, UIST等国际人机交互顶级会议上。
报告主题: Human Agent Interaction
本报告将以“人与智能体协作(Human Agent Interaction)”为主线,首先界定其必要性与关键交互点,以Agent的典型应用场景Deep Research System为例,梳理此类系统中主流大模型能力、智能体设计框架、交互范式与评估方法的最新进展。随后结合Deep Cognition的探索性实践,分享在Research任务中推进人机协作的设计原则、交互范式与评测要点。最后,面向未来,报告将讨论作者对于人与Agent协作的演进路径与开放问题,包括透明性、接管策略、隐私权限设计、脚手架设计、人在环路的评测方法(Human-in-the-loop)、与基础模型的协同效果等。
12、世界模型平台论坛
讲者介绍
田永鸿
北京大学深圳研究生院
田永鸿,北京大学博雅特聘教授,博士生导师,IEEE Fellow,北京大学深圳研究生院副院长、科学智能学院执行院长,鹏城实验室智能计算部副主任兼云脑研究所所长,2018 年国家杰出青年基金获得者,2024年首批国家杰出青年基金延续资助计划获得者。主要研究方向为分布式机器学习、脉冲神经网络、神经形态视觉及科学智能。累计主持国家重点研发计划项目、国基金杰青/重点/重大仪器项目等国家、省部级与企业合作项目40 余项,累计在Nature/Science子刊、IEEE Trans等国际期刊和ICML、NeurIPS等国际会议发表学术论文350余篇,两获国际期刊和会议最佳论文奖;拥有美/中国发明专利100余项,获国家技术发明/进步二等奖各1次、教育部科技进步一等奖1 次、中国电子学会技术发明/科技进步一等奖各1次、2023年广东省科技进步特等奖、2025年IEEE Hans Karlsson标准奖、2022年IEEE标准奖章和标准新兴技术奖、2022年ACM戈登贝尔奖特别奖提名,2024年首届人工智能领域“祖冲之奖”年度重大成果奖、国内外算法竞赛奖10余次,是首届高校计算机专业优秀教师奖励计划获奖者。曾任香港中文大学(深圳)和华中科技大学兼职教授,国际期刊IEEE TCSVT/TMM/Multimedia等编委,IEEE MIPR2020/ICME2021大会主席,IEEE ICME2015/BigMM2015/ISM2015/MIPR2018/ MIPR2019程序主席,现任IEEE数据压缩标准委员会副主席兼IEEE 2941标准工作组组长、中国图象图形学会理事与交通视频专委会副主任等。他是科技部十四五重点专项“智能传感器”专家组成员、广东省十四五重点专项“新一代人工智能”专家组成员。
报告主题: 动态开放环境智能控制:从强化学习到世界模型
现实控制任务(如自动驾驶、机器人控制等)环境复杂多变、状态空间动态开放,强化学习旨在通过智能体与环境的交互实现策略的自主学习,构建一套从原始传感器的高维输入到决策动作的端到端感知与控制流程,是实现通用人工智能的关键。然而,其低效且不可控的交互模式限制了强化学习在真实场景上的应用。世界模型能够通过神经网络建模环境动力学模型,为强化学习提供一个用于智能体训练的“想象空间”,从而大幅度提升现实数据的使用效率,降低与现实世界的交互需求。本次报告将分享团队在相关领域的最新进展,从知识启发和多模态融合等不同方面综合提升强化学习的性能和效率,并将进一步探讨面向控制决策任务的世界模型构建方式,及其基于世界模型的强化学习高效训练方法。
鲁继文
清华大学
清华大学长聘教授、自动化系副主任、全国重点实验室副主任、国家杰出青年科学基金获得者、IEEE/IAPR Fellow。主要研究方向包括机器视觉与模式识别、人工智能安全与治理、具身智能与机器人,发表IEEE汇刊论文160余篇(T-PAMI论文45篇),CVPR/ICCV/ECCV论文160余篇,获授权国家发明专利60余项,主持国家自然科学基金重点项目3项、国家重点研发计划项目1项、北京市重点项目2项,获国家级教学成果奖二等奖1项,省部级科技奖一等奖4项。担任中国仿真学会理事、视觉计算与仿真专委会主任,中国图象图形学学会视觉认知与计算专委会副主任,中国自动化学会专家咨询工作委员会副主任,国际期刊Pattern Recognition Letters主编,培养6名博士生获北京市和中国人工智能学会优秀博士学位论文。
报告主题: 全模态通用世界模型​
世界模型是人工智能领域新兴前沿方向,在视觉计算、语言理解、智能系统等方面有着重要的应用前景。报告将回顾近年来世界模型领域的主要研究进展,包括面向视频生成、自动驾驶、具身智能的全模态通用世界模型构建理论方法与关键技术,同时深入分析其优缺点与应用潜能,最后对未来发展趋势和亟待解决的重难点问题进行展望。
张兆翔
中国科学院自动化研究所
张兆翔,中国科学院自动化研究所研究员、博士生导师,模式识别实验室常务副主任,模式识别北京市重点实验室常务副主任,中国科学院大学人工智能学院副院长,国际模式识别学会会士、亚太人工智能学会会士,“教育部长江学者特聘教授”,“国家万人计划青年拔尖人才”。研究方向是模式识别、空间智能、具身智能、智能体学习。先后主持了国家自然科学基金重点项目、联合基金重点、重点国际(地区)合作研究、北京市重点研发计划、北京市自然科学基金重点项目、中科院先导科技专项、启元国家实验室重点项目、装备部重点项目等多项国家级重点项目。在IEEE T-PAMI、CVPR等本领域国际主流期刊与会议发表论文200余篇,授权发明专利40项。他是中国人工智能学会模式识别专委会副主任、中国图象图形学会类脑视觉专委会副主任。他是或曾经是IJCV、PR等人工智能顶刊编委,ICCV、CVPR、NeurIPS等人工智能顶会领域主席。获北京市科技进步奖一等奖(排名第一)、北京市科技奖杰出青年中关村奖、中国电子学会科技进步一等奖等。
报告主题: 世界模型的十字路口:表征学习还是环境建模?
近年来,世界模型在强化学习与具身智能等领域中受到广泛关注,并展现出强大的潜力。经过前两年的快速发展,这一研究路线逐渐走向一个关键的十字路口:究竟是将世界模型作为通用的表征学习工具,还是作为高保真的环境建模框架?前者以Yann LeCun提出的JEPA系列为代表,强调可泛化的表征与预测能力;后者则以Genie系列为代表,聚焦逼真可控的环境生成与交互。本报告将围绕这两种不同的发展路径展开对比分析,并结合团队的相关探索与最新进展,探讨世界模型未来可能的方向与应用前景。
郭春超
腾讯混元
郭春超博士,腾讯专家研究员、混元3D负责人,先后从事广告AI、生成式大模型研究与落地工作,已在CVPR等各类期刊会议发表论文二十余篇,在国内外技术竞赛获冠军20项,博士期间获得全国图像图形学术会议优秀论文奖。带领团队研发业界最早一批3D-DiT模型,应用于游戏、地图、社交等多个场景。发布首个开源3D世界模型HunyuanWorld,在业界获得广泛关注。
报告主题: 混元3D世界生成
我们身处于三维世界,通过实实在在的三维物体感知物理世界。伴随着生成式大模型技术发展,3D AIGC也快速成为了新的研究焦点,被业界认为是继文本、图片、视频模态之后有望实现重大突破的领域。同时,随着具身智能、世界模型的兴起,模拟3D世界也获得更多关注和讨论。世界模型发展趋势呈现出多种模态融合的特征,然而仍有多项难点需突破,包括空间稳定性、物理规律建模、长时序稳定性等核心难点。 本次分享结合混元3D的布局、世界模型的研发现状与展望,分享腾讯混元在3D世界模型生成等方面的技术探索。
高宸
清华大学
高宸,清华大学信息国研中心助理研究员,于清华大学电子系获学士学位和博士学位,主要从事人工智能方面的科研工作,在Nature Communications、KDD、SIGIR、ACL、MM、ICLR、NeurIPS等会议期刊发表论文100余篇(CCF-A类70余篇),谷歌学术引用6000余次,曾获得ACL 2024杰出论文奖、清华大学优秀博士学位论文奖、中国计算机学会优秀博士论文奖提名,入选2024 Stanford/Elsevier全球前2%科学家。
报告主题: 城市世界模型:从仿真到生成
世界模型作为真实物理世界的表示与建模,实现从感知到行动的闭环优化,已广泛应用于人工智能多个领域。城市世界模型聚焦于城市场景的建模,以支撑智能体的感知、推理、规划和交互。本次报告将介绍从仿真到生成的城市世界模型进展。首先回顾仿真基础平台EmbodiedCity以及UrbanVideo-Bench等评测集,进一步地,介绍城市导航智能体CityNavAgent和空间推理增强的多模态大模型Embodied-R等工作,接着过渡至基于生成式AI的世界模型,如城市低空视频生成模型AirScape等。最后,展望城市世界模型在城市规划等领域的未来发展方向与开放性挑战。
13、智能运筹优化论坛
讲者介绍
黄敏
东北大学
黄敏,东北大学信息科学与工程学院教授,博士生导师。于1990、1993和1998年在东北大学分别获得学士、硕士和博士学位。教育部“长江学者奖励计划”特聘教授、国家杰出青年科学基金获得者、国家重点研发计划项目首席、教育部新世纪优秀人才、享受国务院政府特殊津贴专家、辽宁省优秀专家、辽宁省“兴辽英才计划”科技创新领军人才、辽宁省百千万人才工程百人层次、辽宁省优秀科技工作者。流程工业综合自动化国家重点实验室重要骨干。国家重大项目评审专家,国家级科技与教育奖励评审专家。美国密西根大学(安娜堡)高级访问学者。现任东北大学人工智能系主任、辽宁省智能科学与智能系统重点实验室主任、教育部“互联网+”物流与供应链管理学科创新引智培育基地(111培育基地)主任、东北大学未来制造与服务智能分析决策国际研究中心主任、东北大学长重智能制造产业研究院首席科学家、中国运筹学会行为运筹与管理分会理事长,中国优选法统筹法与经济数学研究会智能决策与博弈分会副理事长等。主持40余项包括国家杰出青年科学基金项目、国家自然科学基金重大研究计划重点支持项目、国家自然科学基金重点国际(地区)合作项目、国家重点研发计划项目等的国家和省部级项目。参加20余项国家自然科学基金创新群体项目、国家自然科学基金重点项目等项目。获国家科技进步二等奖、国家教育部自然科学二等奖、国家教育部技术发明二等奖等省部级以上科研奖励8项;获国家教育部科技成果多项,辽宁省教学成果一等奖等省部级以上教学奖励3项。POM、EJOR等发表SCI收录学术论文200余篇;7篇论文入选ESI 高被引论文;出版著作5部、译著1部;获国家发明专利授权14项,取得软件著作权11项。
报告主题: 数据驱动的双链协同智能决策—钢铁工业视角
面向流程工业生产链和产业链高效协同与低碳安全运行需求,针对上下游数据-目标-变化脱节、资源配置失衡、环境变化强等瓶颈问题,研究基于工业互联网的全要素深度感知与动态协同预测方法;构建云-边-端支撑下的生产链—产业链双链数据驱动优化决策架构;研究弹性资源配置与自组织优化算法,实现生产链全流程多目标自适应调度与绿色低碳运行。
王子卓
香港中文大学(深圳)
王子卓博士现为香港中文大学(深圳)数据科学学院教授、副院长,同时为杉数科技联合创始人、首席技术官。王子卓本科毕业于清华大学数学系,2012年获斯坦福大学管理科学与工程博士学位。王子卓曾为明尼苏达大学工业与系统工程系终身教授。现担任广东省人工智能数理基础重点实验室主任,为国家海外高层人才青年项目、国家杰出青年项目获得者。   王子卓教授的主要研究方向为机器学习及运营管理。在运筹学和管理科学国际顶尖杂志上发表过超过60篇文章,并担任运营管理方面国际顶尖杂志MS, OR, MSOM, POMS等编委。   2016年起,王子卓与他人共同创立杉数科技并担任CTO,过去九年在国内为超过三百家企业做智能决策方面的咨询与服务,客户包括京东,顺丰,滴滴,华为,南航等国内领头企业。
报告主题: Large Language Models for Optimization Modeling​
This talk presents recent advances in the application of large language models (LLMs) to mathematical optimization modeling, with a focus on industrial and operational research contexts.   We introduce ORLM (Operations Research Language Model) — the first open-source LLMs fine-tuned specifically for optimization tasks. To mitigate the scarcity of domain-specific training data, the proposed framework includes OR-Instruct, a semi-automated pipeline designed to generate instruction-style datasets across a broad range of problem types. OR-Instruct employs two core strategies: Expansion and Augmentation. Expansion leverages advanced LLMs to generate new problem scenarios and question types from seed data, while Augmentation diversifies the dataset by modifying objectives and constraints, rephrasing problem statements, and incorporating varied modeling techniques. ORLMs trained under this framework achieved superior performance on public benchmarks such as NL4OPT and MAMO, surpassing most of the leading LLMs. We also develop the IndustryOR benchmark, encompassing real-world optimization scenarios from 13 industries, spanning five categories and three levels of complexity.
王祥丰
华东师范大学
王祥丰,华东师范大学教授,分别于2009年和2014年在南京大学数学系获得本科和博士学位,入选上海市青年科技英才启明星,担任上海市运筹学会副理事长、中国运筹学会算法软件与应用分会常务理事等。主要研究方向是智能体(最优化、强化学习、大语言模型驱动智能体)及应用等。曾获中国工业与应用数学学会落地应用成果、中国运筹学会青年科技奖提名奖、IEEE信号处理学会最佳论文奖、华为云技术合作优秀合作伙伴奖、上海开源创新卓越成果奖等。
报告主题: Shapley-Coop: Credit Assignment for Emergent Cooperation in Self-Interested LLM Agents
Large Language Models (LLMs) are increasingly deployed as autonomous agents in multi-agent systems, and promising coordination has been demonstrated in handling complex tasks under predefined roles and scripted workflows. However, significant challenges remain in open-ended environments, where agents are inherently self-interested and explicit coordination guidelines are absent. In such scenarios, misaligned incentives frequently lead to social dilemmas and inefficient collective outcomes. Inspired by how human societies tackle similar coordination challenges—through temporary collaborations like employment or subcontracting—a cooperative workflow Shapley-Coop is proposed. This workflow enables self-interested Large Language Model (LLM) agents to engage in emergent collaboration by using a fair credit allocation mechanism to ensure each agent’s contributions are appropriately recognized and rewarded. Shapley-Coop introduces structured negotiation protocols and Shapley-inspired reasoning to estimate agents’ marginal contributions, thereby enabling effective task-time coordination and equitable post-task outcome redistribution. This results in effective coordination that fosters collaboration while preserving agent autonomy, through a rational pricing mechanism that encourages cooperative behavior. Evaluated in two multi-agent games and a software engineering simulation, Shapley-Coop consistently enhances LLM agent collaboration and facilitates equitable outcome redistribution, accurately reflecting individual contributions during the task execution process.
韩丛英
中国科学院大学
韩丛英,中国科学院大学数学科学学院长聘教授、博士生导师。主要从事组合优化的人工智能求解方法、机器学习与优化、深度学习与模式识别、强化学习与智能决策等交叉学科的理论与应用方面的研究。在人工智能期刊和国际学术会议AAAI、NeurIPS、ICML和CVPR等发表了系列研究论文。获得中国运筹学会科学技术奖运筹应用奖、国际运筹学会联合会运筹进展奖二等奖(IFORS prize for OR in development, Runner-up)等。主持国家自然科学基金重点项目、科技部“数学和应用研究”重点研发项目课题、国家自然科学基金面上、青年项目以及省部级纵横向项目多项,目前兼任中国运筹学会第十二届常务理事、中国运筹学会数学与智能分会秘书长以及《运筹与管理》编委等。
报告主题: Purity Law for Neural Routing Problem Solvers with Enhanced Generalizability
Achieving generalization in neural approaches across different scales and distributions remains a significant challenge for routing problems. A key obstacle is that neural networks often fail to learn robust principles for identifying universal patterns and deriving optimal solutions from diverse instances. In this presentation, we first uncover Purity Law, a fundamental structural principle for optimal solutions of routing problems, defining that edge prevalence grows exponentially with the sparsity of surrounding vertices. Statistically validated across diverse instances, Purity Law reveals a consistent bias toward local sparsity in global optima. Building on this insight, we propose Purity Policy Optimization (PUPO), a novel training paradigm that explicitly aligns characteristics of neural solutions with Purity Law during the solution construction process to enhance generalization. Extensive experiments demonstrate that PUPO can be seamlessly integrated with popular neural solvers, significantly enhancing their generalization performance without incurring additional computational overhead during inference.
袁坤
北京大学
袁坤,现任北京大学前沿交叉研究院助理教授,研究员,博士生导师,北京大学博雅青年学者。他于2019年在美国加州大学洛杉矶分校获得博士学位,并在2019年至2022年在阿里巴巴达摩院美国西雅图研究中心任高级算法专家。袁坤主要研究最优化、机器学习、大模型高效训练与推理。他在2018年获得IEEE信号处理协会青年作者最佳论文奖。相关成果被集成于阿里巴巴“敏迭”优化求解器和英伟达DeepStream官方软件库。
报告主题: A Memory Efficient Randomized Subspace Optimization Method for Training Large Language Models
The memory challenges associated with training Large Language Models (LLMs) have become a critical concern, particularly when using the Adam optimizer. To address this issue, numerous memory-efficient techniques have been proposed, with GaLore standing out as a notable example designed to reduce the memory footprint of optimizer states. However, these approaches do not alleviate the memory burden imposed by activations, rendering them unsuitable for scenarios involving long context sequences or large mini-batches. Moreover, their convergence properties are still not well-understood in the literature. In this work, we introduce a Randomized Subspace Optimization framework for pre-training and fine-tuning LLMs. Our approach decomposes the high-dimensional training problem into a series of lower-dimensional subproblems. At each iteration, a random subspace is selected, and the parameters within that subspace are optimized. This structured reduction in dimensionality allows our method to simultaneously reduce memory usage for both activations and optimizer states. We establish comprehensive convergence guarantees and derive rates for various scenarios, accommodating different optimization strategies to solve the subproblems. Extensive experiments validate the superior memory and communication efficiency of our method, achieving performance comparable to GaLore and Adam.