王颖
中国科学院计算技术研究所
王颖,中科院计算所研究员,CCF集成电路设计专委秘书长。主要研究方向包括集成电路设计自动化,高能存储系统设计,主持基金委优青,科技部重点研发等项目。共发表100余篇集成电路与系统结构领域的CCF-A类论文。获得CCF-A类期刊IEEE Trans. on Computer, 以及IEEE ICCD等多个旗舰国际会议的大陆首次最佳论文奖。相关研究成果荣获中国计算机学会技术发明一等奖(第一完成人)、中国电子学会技术发明二等奖、北京市技术发明二等奖,以及华为奥林帕斯先锋奖(智能存储系统),CCF青年科学家奖,CCF-Intel青年学者奖,CCF集成电路early career award。在国际上,曾获得IEEE/ACM DAC40岁以下创新奖(当年全球4位), 2018年中科院科技成果转化特等奖。论文成果曾入选2023 IEEE测试与容错Top Picks,另外获得GLSVLSI,ITC-ASIA最佳论文奖以及ASPDAC最佳论文提名。
报告主题: 大语言模型辅助的处理器芯片设计
随着半导体工艺逼近物理极限和计算需求日益多元化(如人工智能、边缘计算),传统的处理器设计方法面临设计周期长、成本高昂、架构探索空间受限等挑战。近期,大语言模型在自动硬件描述语言代码生成方面展现了巨大的潜力,能够从高层次的规范中生成硬件描述。本报告将聚焦于处理器体系结构生成与建模,首先讨论处理器设计自动化的必要性,特别是体系结构生成技术如何通过高级抽象(如领域特定语言DSL、模板、基于机器学习的生成)自动产生满足特定目标(性能、功耗、面积)的处理器微架构描述(如RTL);其次,将深入分析体系结构建模的核心作用,例如性能建模、功耗建模和面积建模等;最后,将探讨利用自动化工具和方法加速并优化处理器设计流程的未来发展方向。
贾天宇
北京大学
贾天宇,北京大学集成电路学院助理教授/研究员、博雅青年学者,北京大学集成电路设计系副主任。获美国西北大学博士,曾任哈佛大学博士后,前卡耐基梅隆大学助理研究教授。研究兴趣为数字集成电路设计与计算机体系架构,在芯片设计领域发表高水平论文70余篇,包括ISSCC、VLSI、MICRO、DAC等。
报告主题: 面向生成式模型的软硬协同芯片架构设计
生成式大模型已成为推动人工智能发展的核心引擎,但其巨大的参数量、计算复杂度和内存消耗对现有的计算硬件架构提出了前所未有的挑战。传统以硬件为中心或单纯依赖软件优化的设计方法已难以满足其在性能、能效和成本上的苛刻要求。本报告将展示团队近期针对大语言模型、文生图模型的几个加速架构设计案例,展示软硬协同的架构设计方法已成为芯片设计的重要手段,在未来人工智能芯片中将带来更显著的设计收益。
陈键飞
清华大学
陈键飞,清华大学计算机系准聘副教授。2010-2019年获清华大学学士和博士学位。从事高效机器学习研究,谷歌学术引用5000余次。担任IEEE TPAMI的编委,担任ICLR等会议领域主席。获得CCF青年人才发展计划、清华大学学术新人奖等。
报告主题: 基于量化稀疏的高效训练推理:理论及算法
大模型所需计算成本高昂,而低精度、稀疏等高效训练推理方法均在原有计算基础上引入了近似,可能会引起精度损失。本报告将介绍近似梯度下降理论,该理论可以为高效的近似训练方法的收敛性、收敛速度提供理论保证。基于该理论,将分别介绍通过量化和稀疏两条技术路线设计的前馈神经网络计算加速、注意力计算加速、激活压缩、优化器压缩、通信压缩等高效训练推理算法。将从机器学习的角度出发,介绍高效训练的过程中遇到的训练不稳定等问题及克服方法。
于超
清华大学
于超,博士毕业于清华大学。研究领域为强化学习、多智能体、具身智能等。迄今以第一/通讯作者在顶级国际会议和期刊发表论文30余篇,谷歌学术总引用4000余次。其中,以第一作者发表于NeurIPS 2022的多智能体强化学习算法MAPPO论文引用逾2000次,发表于IROS 2018的机器人论文引用超1000次。曾获清华大学优秀博士毕业生、优秀博士论文、优秀硕士论文、2024年度中国智能体与多智能体系统优秀博士论文提名奖、国家奖学金等荣誉。博士后期间入选清华大学“水木学者”计划、电子系“传信未来学者”计划;获张克潜冠名博士后资助及博士后国资计划资助;主持国家自然科学基金青年项目、博士后基金特别资助与面上项目。
报告主题: RLinf: A System for Adaptive, Dynamic, Fine-Grained Scheduling in Reinforcement Learning
TReinforcement Learning (RL) has played a pivotal role in the era of large models, powering the development of large reasoning models as well as the emerging paradigms of tool-use agents and GUI-based agents. As these applications grow in scale and complexity, the demand for a flexible and scalable RL infrastructure becomes increasingly critical. In this report, I introduce RLinf, a newly designed RL system that provides adaptive, dynamic, and fine-grained scheduling for modern RL workloads. RLinf features a unified programming interface, flexible execution modes, adaptive communication mechanisms, and an automated scheduling module that enables efficient utilization of heterogeneous resources. I will present the architectural design of RLinf and highlight its first deployment in embodied intelligence, demonstrating how RLinf can serve as a foundational infrastructure for next-generation RL research and applications.
曹士杰
微软亚洲研究院
曹士杰,微软亚洲研究院系统组高级研究员。研究方向为深度学习高效推理,模型压缩与加速,软硬件联合优化,特别是低比特和稀疏大语言模型及其系统和硬件加速。曾在OSDI,ISCA,MLSys,FPGA,ACL等发表多篇论文。
报告主题: 低比特大语言模型:从模型到系统到硬件
随着大语言模型在各种应用中的广泛使用,其在云端和边缘端的高效部署变得至关重要。低比特量化作为一种优化策略,已被证明是实现大模型轻量化部署和加速推理的有效手段。本报告将介绍微软亚洲研究院在低比特大语言模型研究中的探索和进展,包括在算法层面量化和蒸馏低比特大语言模型,在系统层面利用现有GPU/CPU/NPU实现低比特大语言模型高效推理,以及在硬件层面为低比特大语言模型设计下一代体系结构。
Christopher E. Mower
Huawei, Noah’s Ark Lab
报告主题: Ark: An Open-source Python Framework for Robot Learning
Robotics has made remarkable hardware strides-from DARPA's Urban and Robotics Challenges to the first humanoid-robot kickboxing tournament-yet commercial autonomy still lags behind progress in machine learning. A major bottleneck is software: current robot stacks demand steep learning curves, low-level C/C++ expertise, fragmented tooling, and intricate hardware integration, in stark contrast to the Python-centric, well-documented ecosystems that propelled modern AI. We introduce ARK, an open-source, Python-first robotics framework designed to close that gap. ARK presents a Gym-style environment interface that allows users to collect data, preprocess it, and train policies using state-of-the-art imitation-learning algorithms (e.g., ACT, Diffusion Policy) while seamlessly toggling between high-fidelity simulation and physical robots. A lightweight client-server architecture provides networked publisher-subscriber communication, and optional C/C++ bindings ensure real-time performance when needed. ARK ships with reusable modules for control, SLAM, motion planning, system identification, and visualization, along with native ROS interoperability. Comprehensive documentation and case studies-from manipulation to mobile navigation-demonstrate rapid prototyping, effortless hardware swapping, and end-to-end pipelines that rival the convenience of mainstream machine-learning workflows. By unifying robotics and AI practices under a common Python umbrella, ARK lowers entry barriers and accelerates research and commercial deployment of autonomous robots.
何聪辉
上海人工智能实验室
何聪辉,清华大学博士,斯坦福大学、伦敦帝国理工学院访问博士,现任上海人工智能实验室青年科学家、上海交通大学兼职博导,长期从事 Data-Centric AI 与高性能计算领域,现带领 OpenDataLab 团队负责浦江“书生”系列大模型的数据体系建设。何聪辉在技术突破和开源生态影响力方面取得一系列成果,在计算机领域顶级学术会议发表高质量论文 150 余篇,谷歌学术引用达 9000 次,GitHub星标数突破 5 万;曾获高性能计算应用领域最高荣誉戈登·贝尔奖、ACL 最佳主题论文奖、世界人工智能大会云帆奖(璀璨明星)、腾讯技术突破金奖、IEEE 智慧地球挑战赛全球冠军。何聪辉积极拥抱开源社区,带领团队研发了全球首个大模型数据解析引擎 MinerU,目前 GitHub 星标数超 4 万(开源第一),超过同期开源的 LLaMa3,Qwen 等一线大模型。
报告主题: Meta-rater:预训练语言模型的多维数据筛选方法
大语言模型(LLM)的性能瓶颈不仅在于模型本身,更在于其不透明且质量参差不齐的预训练数据。当前的数据筛选方法普遍过于片面,未能全面评估数据对模型训练的真正价值。为解决这一问题,我们提出了一种突破性的多维度数据评估框架,并据此开发了Meta-rater方法。该方法将专业性、可读性、推理能力和整洁度四大维度进行系统整合,并通过独创的加权学习机制,智能预测并筛选出能最大化模型性能的数据组合。实验结果表明,Meta-rater效果显著:不仅使13亿参数模型的收敛速度翻倍,还将下游任务表现提升了3.23%。该方法的可扩展性已在72亿参数的模型上得到验证。我们的研究证实,相比于单一维度评估,全面、多维度的视角是提升大语言模型效率与能力的决定性因素。
骆昱宇
香港科技大学(广州)
骆昱宇博士,现任香港科技大学(广州)助理教授、香港科技大学联署助理教授、博士生导师,数据智能与分析实验室负责人。研究兴趣为DATA+AI数智融合方向,包括数据为中心的人工智能(Data-centric AI, DCAI)、大模型智能体(Foundation Agents)、数据智能体(Data Agents)、智能数据库系统(AI for Databases)。 主持国家自然科学基金青年项目、科技部重点研发计划项目课题等,在数据管理与挖掘(SIGMOD/VLDB/TODS/SIGKDD)、人工智能(ICML/NeurIPS/ICLR/ACL)等领域发表 CCF-A 类论文 40余篇,也担任多个国际顶会的Associate PC Chair/Area Chair和IEEE Data Engineering Bulletin期刊副主编。他获得多个最佳论文/提名奖(如SIGMOD 2023, CIKM 2022, DASFAA 2019),领导或参与开源了多个DATA+AI系统(如OpenManus智能体项目,Github 4.8万+Stars)。他曾获世界人工智能大会云帆奖、福布斯中国“30位30岁以下精英”榜、华为火花奖、清华特等奖学金、清华优博等荣誉。
报告主题: 从智能问数到数据智能体:范式演进与反思
以Text2SQL为代表的智能问数技术利用自然语言交互降低数据访问门槛,但其传统方法在泛化性与适应性上存在局限。大语言模型等技术的突破,正推动该领域向更自主的数据智能体范式演进。本报告探讨这一演进中的核心进展:智能体架构(如融合规划、决策与反馈的推理框架)显著提升了复杂查询的零样本泛化与可控性;交互能力的深化(如多轮对话、意图分解与澄清)使交互更自然精准;数据理解与操作的扩展(如跨模态融合)则拓宽了应用场景。报告同时深入反思当前面临的关键挑战:复杂意图的精准解析与任务分解、决策鲁棒性与错误处理、可解释性与安全可控性保障,以及智能体与数据基础设施的高效协同。最后探讨如何构建下一代高效、可靠、普适的数据智能体。
柴成亮
北京理工大学
柴成亮,北京理工大学计算机学院预聘副教授(特别研究员)、博士生导师,博士毕业于清华大学。曾获CCF优秀博士论文奖、ACM中国优秀博士论文奖、入选福布斯中国30位30岁以下精英榜单、北京市科技新星、百度奖学金等奖励。已发表CCF A类论文50余篇,包括SIGMOD、VLDB、TODS、KDD等。研究方向包括以数据为中心的人工智能、多模态数据分析。
在当今信息爆炸的时代,数据的多样性和复杂性不断增加,传统的数据分析方法已难以满足数据分析师日益增长的需求。本报告探讨如何利用大语言模型(Large Language Models, LLMs)来系统性地分析多模态数据分析。大语言模型以其强大的自然语言处理能力,为理解和整合这些数据提供了新的视角。本研究首先概述了多模态数据的特点及其在现代数据分析中的重要性。随后,详细介绍了多模态数据表征与存储、系统的查询语言,查询优化方法,包括其在处理表格、文本、图像等数据时的策略和优势。
周煊赫
上海交通大学
周煊赫,现任上海交通大学计算机学院长聘轨助理教授。主要研 究智融数据分析、ML/LLM数据底座、自治数据库系统(AI4DB)。在SIGMOD、VLDB、NIPS、TKDE等CCF A类会议和期刊上已发表论文 数十篇,包括近五年VLDB、ICDE高被引论文,入选卡耐基梅隆大 学、康奈尔大学等高校课程。谷歌学术引用量两千余次。曾获世界人工智能大会云帆奖、ACM Jim Gray博士论文提名奖(大陆首位)、VLDB 2023最佳工业论文亚军奖(第一作者)、通信学会科 学技术一等奖、CCF优博、微软学者、字节跳动奖学金、清华特奖 等荣誉。代表性工作OpenMLDB已经落地第四范式先知(AIOS)平台并在金融、电商、能源等百余个真实场景中实现规模化应用。
报告主题: Data×LLM:云智数据基座与数据密集型分析应用
随着多模态语言模型迈入“千亿参数、万亿数据”阶段,数据已成为驱动其能力跃迁的核心燃料。本报告围绕“数据 × 大模型”这一主题,系统介绍我们在构建云智数据基座、支撑领域大模型高效训练,以及驱动数据密集型智能应用方面的研究探索与系统实践。
陈延福
新加坡国立大学
Vincent Y. F. Tan received the B.A. and M.Eng. degrees in electrical and information science from Cambridge University in 2005, and the Ph.D. degree in electrical engineering and computer science (EECS) from the Massachusetts Institute of Technology (MIT) in 2011. He is currently a Professor with the Department of Mathematics and the Department of Electrical and Computer Engineering (ECE), National University of Singapore (NUS). His research interests include information theory, machine learning, and statistical signal processing.
Dr. Tan is an elected member of the IEEE Information Theory Society Board of Governors. He is currently serving as a Senior Area Editor for the IEEE Transactions on Signal Processing and as an Area Editor in Shannon Theory and Information Measures for the IEEE Transactions on Information Theory. He also regularly serves as an Area Chair or Senior Area Chair of prominent machine learning conferences such as the International Conference on Learning Representations (ICLR) and the Conference on Neural Information Processing Systems (NeurIPS).
报告主题: BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms
Speculative decoding has emerged as a popular method to accelerate the inference of Large Language Models (LLMs) while retaining their superior text generation performance. Previous methods either adopt a fixed speculative decoding configuration regardless of the prefix tokens, or train draft models in an offline or online manner to align them with the context. This paper proposes a training-free online learning framework to adaptively choose the configuration of the hyperparameters for speculative decoding as text is being generated. We first formulate this hyperparameter selection problem as a Multi-Armed Bandit problem and provide a general speculative decoding framework BanditSpec. Furthermore, two bandit-based hyperparameter selection algorithms, UCBSpec and EXP3Spec, are designed and analyzed in terms of a novel quantity, the stopping time regret. We upper bound this regret under both stochastic and adversarial reward settings. By deriving an information-theoretic impossibility result, it is shown that the regret performance of UCBSpec is optimal up to universal constants. Finally, extensive empirical experiments with LLaMA3 and Qwen2 demonstrate that our algorithms are effective compared to existing methods, and the throughput is close to the oracle best hyperparameter in simulated real-life LLM serving scenarios with diverse input prompts.
王趵翔
香港中文大学(深圳)
王趵翔是香港中文大学(深圳)数据科学学院的助理教授。他的主要研究方向为强化学习和学习理论,尤其关注博弈论背景下的问题设定。他于2020年获得香港中文大学计算机科学与工程博士学位。此前,他于2014年获得上海交通大学信息安全专业工学学士学位。他的研究成果发表于ICML、NeurIPS、ICLR等机器学习会议,包括给出The Gambler's problem的首个解析解,以及PPO的首个收敛性证明等。
报告主题: On Games with Conflicting Interests
To investigate differentiable games (that have strategy spaces in $\reals^n$), we decompose the game into components where the dynamic is well understood. We show that any differentiable game can be decomposed as a direct sum of three parts: an exact potential part, a near vector potential part, and a non-strategic part. A potential part coincides with potential games described by Monderer and Shapley (1996), known as pure cooperative games. A vector potential game on the other hand represents a game with purely conflicting interests. We show that the individual gradient field is divergence-free, in which case the gradient descent dynamic may either be divergent or recurrent. When the divergence-free game is finite, including harmonic games and important classes of zero-sum games, we show that optimistic variants of classical no-regret learning algorithms converge to an $\epsilon$-approximate Nash equilibrium at a rate of $O(1/\epsilon^2)$.
左金航
香港城市大学
左金航博士现任香港城市大学计算机科学系助理教授,获美国卡内基梅隆大学博士学位。研究方向包括机器学习理论、大模型系统、网络系统优化与边缘智能。在人工智能与网络系统等领域的国际顶级会议和期刊(如 NeurIPS、ICML、ICLR、KDD、INFOCOM、SIGMETRICS、TON、JSAC 等)发表论文 30 余篇。曾获香港研究资助局青年学者计划(Early Career Scheme)、卡内基梅隆大学工程学院院长奖学金(Dean’s Fellowship)、马萨诸塞大学阿默斯特分校数据科学中心博士后奖学金、以及 ACM SIGMETRICS 2022 最佳海报奖等。
报告主题: Fusing Reward and Dueling Feedback in Stochastic Bandits
In many modern learning systems, from large language models to recommendation engines, feedback comes in two forms: absolute rewards (e.g., a quality score) and relative comparisons (e.g., "Is A better than B?"). While bandit algorithms typically use one type or the other, real-world applications often provide both. In this talk, we study the fusion of absolute (reward) and relative (dueling) feedback in stochastic bandits, where both feedback types are gathered in each decision round. We first derive a regret lower bound, demonstrating that an efficient algorithm may incur only the smaller among the reward and dueling-based regret for each individual arm. We then propose two fusion approaches: (1) a simple elimination fusion algorithm that leverages both feedback types to explore all arms and unifies collected information by sharing a common candidate arm set, and (2) a decomposition fusion algorithm that selects the more effective feedback to explore the corresponding arms and randomly assigns one feedback type for exploration and the other for exploitation in each round. The elimination fusion experiences a suboptimal multiplicative term in regret due to the intrinsic suboptimality of dueling elimination. In contrast, the decomposition fusion achieves regret matching the lower bound up to a constant. Extensive experiments confirm the efficacy of our algorithms and theoretical results.
孔芳
南方科技大学
孔芳,南方科技大学助理教授、副研究员、博士生导师。此前,她于上海交通大学获得博士学位,于山东大学获得学士学位。她的主要研究方向为在线学习和强化学习理论,以第一作者身份在SODA、COLT、ICML、NeurIPS等理论计算机和机器学习顶级会议上发表研究成果十余篇。长期担任ICML、NeurIPS、TPAMI等学术会议和期刊的审稿人。曾获得2025年CCF智能体与多智能体系统优秀博士论文奖和2023年百度奖学金。
报告主题: Bandit Learning in Matching Markets with Indifference
Matching markets play a crucial role in both computer science and economics. Stable matching is a fundamental problem in this area, capturing equilibrium outcomes in which no pair of agents would prefer to be matched with each other over their current assignments. Since agents often face uncertainty in their preferences, bandit learning has recently gained considerable attention in this context. Although existing work provides significant theoretical upper bounds on stable regret, these results typically rely on the assumption that each agent has a strict preference ranking—an assumption that often breaks down in practice, where candidates may have similar qualifications. This talk introduces an adaptive exploration algorithm based on arm-guided Gale-Shapley (AE-AGS), which naturally handles indifferent preferences and performs effectively in more general settings. Both theoretical and empirical results show that the proposed algorithm significantly outperforms existing methods.
张辉帅
北京大学
张辉帅,北京大学王选计算机研究所助理教授,此前曾在微软亚洲研究院担任首席研究员。他的研究领域包括自然语言处理、大模型的隐私保护,及大模型的优化算法。已在机器学习和人工智能的顶级会议与期刊上发表了40余篇论文。
报告主题: 基于智能体的强化学习数据构建与奖励设计
在数学/逻辑推理的强化学习任务中,数据构建与奖励设计是提升大模型性能与可靠性的关键环节。本报告介绍我们在这个方向上的两个尝试:一是基于任务定义的合成数据强化学习,通过智能体从任务描述及相关文档自动生成问答数据,并动态调整问题难度与筛选策略,实现无需人工标注的大规模 RL 训练,在数学、医学、法律、金融等多领域显著提升模型表现,并接近使用全人工数据的效果;二是基于过程验证的奖励设计(PRoSFI),在多步推理任务中,引入结构化中间步骤与形式化验证,确保推理链条每一步均可被机器验证,从而提升推理的可解释性与可信度。这两种方法共同展示了智能体驱动的自动数据合成与精细化奖励机制在降低人工成本、提升推理质量方面的潜力。
袁洋
清华大学
清华大学交叉信息研究院、人工智能学院副教授。2012年毕业于北京大学计算机系,2018年获得美国康奈尔大学计算机博士学位,师从Robert Kleinberg教授。他于2018-2019年前往麻省理工学院大数据科学学院(MIFODS)做博士后。袁洋的主要研究方向是智能医疗、AI基础理论、应用范畴论,在NeurIPS,ICLR,ICML等计算机和人工智能领域顶级会议上发表论文三十余篇。曾获得福布斯中国2019年30 Under 30、2019年北京智源青年科学家等荣誉。
报告主题: 基于拓扑斯理论的大规模软件辅助生成框架
随着大语言模型编程能力的持续提升,面向编程辅助的智能体系统迅速发展,并在实际开发中展现出显著成效。Cursor、Claude Code、Base44 等代表性工具已吸引大量开发者用户。然而,当前系统仍面临两大关键挑战:其一,难以高效生成具备完整架构与高一致性的超大规模软件系统;其二,交互模式多依赖“黑盒式”对话,用户在生成过程的细节控制上缺乏透明性与干预能力,代码的调整与优化往往依赖模型的迭代重生成,而非结构化引导。本报告尝试从范畴论与拓扑斯理论的角度出发,探索如何将这些数学基础应用于辅助编程系统的架构与交互设计,以突破现有瓶颈。我们提出的框架在类型编译器的帮助下,能够支持一次性并行生成数万行、并以较高概率一次编译通过的软件系统。更重要的是,该框架为用户(包括非专业编程背景者)提供了可解释、可干预的生成路径,实现前后端代码的协同构建与细粒度控制,从而在提升生成效率的同时增强系统的透明性与可控性。
彭云鹏
百度文心快码
百度文心快码团队高级经理,负责文心快码Comate智能代码助手、云IDE、需求管理平台、代码分析平台和效率云平台等业务和团队,代码智能化、静态分析、开发工具、软件测试、研发数字化等领域申请国内外发明专利71个,已获授权专利37个,国家重点研发计划《基于编程现场大数据的软件智能开发方法和环境》技术骨干,国家高质量专项《基于大模型技术的工业领域智能化开发工具项目》技术骨干,OpenHarmony技术指导委员会IDE TSG成员。
自大模型兴起以来,行业普遍认为,AI时代已经到来,而在AI的浪潮之下,软件工程是发展最快、落地效果最为明显的方向,各类研发智能工具、智能体层出不穷,越来越多的优秀实践也在不断帮助企业释放软件研发生产力。对于研发智能化的发展阶段行业里也有一些定义,百度结合技术的演进和产品的迭代,将其定义为L1-加速器、L2-智能助理、L3-智能体组合、L4-自然语言即代码四个阶段,针对这四个阶段,百度在技术上的尝试、落地推广上的探索,以及最终在整体集团的研发效能上产生的价值,都将和大家进行分享和探讨
冯熙栋
Google DeepMind
Xidong Feng is a research scientist at Google DeepMind. His research spans over generative model and Reinforcement Learning. He has published over 10 papers in top AI conferences or journals like NeurIPS, ICML and JMLR. He obtained his Ph.D. at Computer Science, University College London. He previously earned his BS degree from Tsinghua University.
报告主题: The Language of Action: Deliberate Minds in Games
Traditional reinforcement learning produces super-human reactive systems, capable of mastering games through trial-and-error with scalar reward. Yet, a critical dimension of intelligence remains unexplored: the ability to form a deep, deliberate, causal understanding of the game itself. This talk outlines a new direction for training AI beyond pure game play -- agents that not only play a game proficiently but also genuinely understand it and capable of creating novel content.
The journey begins with ChessGPT, a model that learns deliberative thinking from human collective experience. By co-training on millions of chess games and their associated strategic analyses, this model learns to connect actions to their underlying rationale, and forms a rich, structural understanding can be distilled from existing knowledge bases. The critical next step towards autonomy is then presented as Natural Language Reinforcement Learning (NLRL). By taking analogy from RL, NLRL presents how agent's can learn deliberative thinking through the agent's own life-stream of experience. We will also talk about our recent work on generating creative content in games.
朱濯缨
中国科学技术大学
朱濯缨,中国科学技术大学精准智能化学全国重点实验室特任教授,博士生导师,2024年入选国家创新人才青年项目。2013年本科毕业于中国科学技术大学材料化学专业;2019年获得加州大学圣地亚哥分校纳米工程专业博士学位,2020至2024年,在美国劳伦斯伯克利国家实验室Materials Project从事博士后研究。2024年5月加入中国科学技术大学,主要从事数据驱动的高通量材料计算和自动化计算流程设计,融合理论与实验的优势开发新型能源材料。
报告主题: 数据智能和理实迭代的科研范式探索
材料信息学是材料科学领域的新兴方向,旨在通过数据驱动和跨学科的方法加速材料研发和创新。数据库、软件代码、自动化工作流是其中重要的技术手段和基础设施。随着高性能计算、AI和机器人技术的进步,传统化学“试错法”面临着新兴研究范式改革。科研过程中,近似条件下的理论大数据与有限的实验小数据之间存在巨大差异,也阻碍了化学材料研发创新的应用落地。在AI for Science时代,新工具(大数据、AI、高通量计算与机器人实验)为化学材料智能创制提供了新手段。通过机器化学家的行动智能和高通量自动计算的思维智能,我们探索了理实交融的新科研范式,助力科研人员实现快速迭代和理实对齐,达成规模化、智能化科研的目标。
张铂
上海人工智能实验室
张铂,上海人工智能实验室-青年科学家。专注于多模态大模型、多智能体及其在AI自主科学发现、观点生成、推理领域的研究,已在CVPR/NeurIPS/ICLR/T-PAMI等国际权威会议和期刊发表学术论文40余篇。他在多智能体协同优化-感知决策方面的研究工作获国际知名自动驾驶厂商所举办的Waymo挑战赛冠军;研发了多智能体通用自主科学发现系统框架InternAgent、科学发现平台书生Intern-Discovery,并成功在WAIC2026发布。此外,在实验室作为核心成员参与研发:通用科学文献解析工具MinerU(42.1K github star),通用多模态大模型InternVL(8.8K github star)等知名开源项目。
报告主题: InternAgent:构建面向通用科研场景的闭环智能体系统
智能体正在加速科学研究范式的转变,不仅提升了研究效率,还大幅推动了科研领域创新发展。在这个报告中,我们主要介绍InternAgent,这是一种统一的闭环多智能体框架,用于在多个科学研究领域中进行智能体自主科学研究,帮助研究人员以前所未有的速度和精度解决这些领域中的复杂问题。InternAgent具有以下三个关键优势:
1)可扩展性:InternAgent在12项科学研究任务中展示了其多样性,能够生成创新性想法并自主提升基线代码的性能。
2)交互性:InternAgent提供了一个人类专家反馈和多智能体交互的接口,在自动化的端到端流程中实现了领域专家知识的无缝整合。
3)高效性:InternAgent在多个科学领域中取得了显著的性能提升,同时所需时间成本显著低于人类科研时间。例如,在化学产率预测任务中,InternAgent将准确率从27.6%提升至35.4%,仅用时12小时;在增强子活性预测中,准确率从0.65提高到0.79,仅用时4小时;在2D语义分割中,精度从78.8%提升至81.0%,仅用时30小时,而这些任务人类博士生都会花费数周甚至数月的时间来完成。
张鹏
天津大学
张鹏,天津大学教授、博士生导师、计算机学院副院长,入选国家级青年人才计划,长期致力于自然语言处理、 机器学习与量子力学、量子计算的交叉学科研究方向,近期研究聚焦于量子人工智能、以及其与大语言模型的交叉研究方向。已发表Nature Communications、ACM TOIS、ICML、NeurIPS、ACL、SIGIR、AAAI、KDD、ICLR等高水平论文60余篇,获得欧洲信息检索会议ECIR 2011 Best Poster Award,国际信息检索顶级会议SIGIR 2017 Best Paper Award Honorable Mention等奖励。
量子线路是量子计算中算法实现与实验验证的核心载体,其设计高度依赖完善的专家知识体系。受限于量子硬件实测的高昂成本,发展高效且自动化的线路生成与模拟实验机制,已成为推动量子智能持续发展的关键需求。基于课题组在量子智能领域多年研究积累,我们提出一种融合多种前沿算法的量子科学智能体。该智能体系统通过解析研究需求,驱动多个虚拟量子科学家基于异构知识背景进行协同讨论与博弈,自动完成量子线路的生成、参数优化等流程,为研究者提供全流程的辅助支持。
程然
香港理工大学
程然,香港理工大学数据科学与人工智能系及计算学系双聘副教授、校长青年学者,长期专注于人工智能系统可演化性研究,致力于构建具备自主学习与持续进化能力的智能系统,赋能复杂垂直领域应用。作为开源项目 EvoX 的发起人,推动构建面向演化计算的分布式 GPU 算力基座,高效解决复杂科学计算难题。与中国商飞、国家电网、华为等机构合作,推动了AI技术在智能制造、智慧电网、智慧城市等领域的落地转化。已发表论文130余篇,谷歌学术引用逾 1.7 万次,荣获 IEEE 计算智能学会杰出青年奖,连续入选 Clarivate 全球高被引科学家榜单、全球前2%科学家榜单。现任多个 ACM/IEEE 期刊副编,发起成立 IEEE 计算智能学会深圳分会并担任首届主席。
报告主题: 可持续进化的多智能体系统
本研究旨在突破传统大语言模型(LLM)在耐久性、跨域迁移及知识留存方面的局限,推动人工智能从依赖静态人类数据的“人类数据时代”迈向通过交互生成数据与沉淀经验的“体验时代”。为此,提出融合大模型“认知大脑”与小模型“专家之手”的演化智能体框架,并构建三层核心技术体系:(1)在原创算法层,采用小数据驱动的演化生成式设计,实现复杂工程问题的高效创新;(2)在计算平台层,构建GPU加速的演化计算平台EvoX,支持分布式并行、神经演化及复杂黑箱优化;(3)在智能体系统层,开发兼容Git的分布式多智能体协作与记忆系统EvoGit,实现去中心化协作与结构化知识沉淀。该体系已在多个工业与科研场景中验证了可持续进化智能体在复杂任务中的高效性与可扩展性。
李忠奎
北京大学
李忠奎,北京大学先进制造与机器人学院博雅特聘教授。从事无人集群协同控制与决策研究。撰写英文专著2部,发表期刊论文100多篇。入选国家杰青,教育部青年长江,全国百篇优博。获国家自然科学二等奖1项,教育部自然科学一等奖、二等奖各1项,中国指控学会科技进步一等奖1项,SCI期刊最佳论文奖2个。目前担任IEEE Transactions on Automatic Control等期刊编委。
报告主题: 形式逻辑和大模型融合驱动的集群任务规划方法
高效可靠的任务规划是多智能协同的关键,但在开放未知环境下新任务根据语义特征被不断在线动态触发时面临重大挑战。近期基于大语言模型(LLM)的场景推理和规划方法主要关注一次性、端到端解决方案,缺乏可解释性保证。针对该问题,我们提出了一个新的Dexter-LLM框架,其典型特点在于:1)基于线性时序逻辑(LTL)的复杂任务理解,突破了传统形式化方法的维数爆炸难题,实现了对复杂任务的多项式时间复杂度的分析与分解;2)基于LLM的在线子任务生成,充分利用形式化任务的本质偏序约束以及大模型的多层级思维推理,提高了推理准确性,推理过程透明、可解释;3)支持人在环验证,并具备对事件触发任务的在线适应能力。Dexter-LLM有效地融合了LTL的可解释性与LLM开放世界的推理能力。
董希旺
北京航空航天大学
董希旺,北京航空航天大学蓝天杰出教授(二级)、博士生导师,北京航空航天大学无人系统研究院院长、中国航空工业集团公司沈阳飞机设计研究所人工智能领域专业副总师、中国指挥与控制学会副秘书长,长江学者特聘教授、国防卓青、工信部杰青、北京市杰青、国家优青。长期从事飞行器集群智能协同技术研究,理论与实践并重,研发了基于无人机和无人车的集群智能协同验证平台并开展了系列试验验证,支撑完成三届空军无人争锋比赛无人机集群极速穿越飞行任务均获得最好成绩,蝉联固定翼集群科目冠军。以第一和通讯作者在IEEE TAC和TCST等汇刊以及Automatica等国际知名期刊发表SCI论文100余篇,累计他引8000余次,长期入选爱思唯尔中国高被引学者和全球前2%顶尖科学家,出版中英文专著5部,授权/受理国家发明专利80余项。先后获军事技术发明一等奖、中国自动化学会自然奖一等奖、中国指挥与控制学会技术发明一等奖等奖励和荣誉10余项,担任IEEE Robotics and Automation Letters、Unmanned Systems等期刊编委。
报告主题: 集群系统协同控制理论及在飞行器集群中的应用
集群智能是新一代人工智能的重要研究领域。飞行器是集群系统中的典型对象,在军事及民用领域都有着广阔的应用前景。协同控制是集群系统智能涌现的保障和途径。以飞行器集群为代表的集群系统具有大规模性、开放性、高动态性及强鲁棒性等典型应用特征。这些特征使得针对集群系统协同控制的相关算法能够分布式实现。本报告主要针对集群系统协同控制中的分布式时变编队控制技术、编队跟踪控制技术及编队-合围控制技术进行分别介绍,并结合在无人机集群上的系列飞行试验对所提出技术的有效性进行演示验证,最后以所参加的空军“无人争锋”智能无人机集群系统挑战赛密集编队穿越竞速的比赛为例进行应用展示,并对未来的可能发展方向进行概述。
王钢
北京理工大学
王钢,北京理工大学自动化学院教授、博士生导师,研究无人系统数据驱动控制和世界模型学习。入选中组部人才专项、海外高层次人才引进项目等,主持国家重点研发计划项目、国家自然科学基金联合重点项目等,在IEEE TIT/TAC/TSP等汇刊发表期刊论文60篇,NeurIPS/ICRA/IROS/CDC等国际会议发表论文60篇。获ICCA最佳论文奖、IEEE信号处理学会“优秀编委奖”、中国工程院院刊《信息与电子工程前沿(英文版)》“最佳论文奖”、欧洲信号处理会议“最佳学生论文奖”、中国自动化学会自然科学一等奖、“优秀博士论文奖”等。现担任IEEE Control Systems、IEEE Trans. Signal and Information Processing over Networks、IEEE Open Journal of Control Systems等期刊编委,以及中国自动化学会控制理论专业委员会委员、中国自动化学会具身智能专委会副主任委员等。
世界模型通过“想象”生成数据,显著提升了样本效率并降低了训练成本,是实现智能体高效自主决策的关键途径。本报告介绍了我们在世界模型方面的三个初步成果。提出基于Transformer架构的世界模型STORM,在Atari 100k基准上取得SOTA性能,训练时间和资源消耗显著低于经典DreamerV3算法。DyMoDreamer 通过引入动态调制机制,提升模型对环境变化的敏感性,在Atari 100k与DMControl等多个基准中均取得SOTA性能。SBR用状态检索构建高质量策略,在模仿学习中实现了对DreamerV3的全面超越。这些成果展示了世界模型强化学习的核心优势与应用潜力,并为智能体在复杂环境中的高效决策提供了新的思路。
吴翼
清华大学
吴翼,清华大学交叉信息研究院助理教授,曾任OpenAI全职研究员,研究领域为深度强化学习,多智能体学习,推理模型,人机交互等。2019年在美国加州大学伯克利分校获得博士学位,师从Stuart Russell教授;2014年本科毕业于清华大学交叉信息院计算机科学实验班(姚班),代表作包括强化学习泛化性早期工作Value Iteration Network,多智能体学习最高引算法 MAPPO/MADDPG,OpenAI多智能体捉迷藏项目等,还曾获得顶级会议NIPS2016 best paper award和ICRA2024 best demo award finalist.
报告主题: AReaL: a Large-Scale RL System for LLM Agents
LLM Agent has been a new trending form of LLM applications, which can actively plan, reason and take actions to accomplish long-horizon tasks. In this talk, we present insights on how to use RL to train a strong LLM agent in an end-to-end way using our large-scale RL system AReaL. AReaL supports a flexible interface to define customizable agent workflows and enables 3-5x training speedup by fully asynchronous RL. The project is fully open-sourced at https://github.com/inclusionAI/AReaL
温颖
上海交通大学
温颖,上海交通大学人工智能学院长聘教轨副教授,博士生导师。他的研究方向涉及强化学习、多智能体系统及决策大模型。他于2020年和2016年分别获得英国伦敦大学学院计算机系博士学位和研究型硕士学位,入选上海海外高层次人才,作为负责人主持自然科学青年基金,国家重点研发计划课题,上海市科学智能百团百项,上海市青年科技英才扬帆计划。他的五十余篇研究成果发表在ICML, NeurIPS, ICLR, IJCAI, AAMAS等相关领域的一流国际会议上。曾获CoRL 2020最佳系统论文奖,AAMAS 2021 Blue Sky Track最佳论文奖,WAIC’25云帆奖璀璨明星提名奖。他连续多年担任ICML, NeurIPS, IJCAI, AAAI, IROS, ICAPS, Operational Research等国际知名会议/期刊的PC成员或审稿人。
报告主题: 基于强化学习的大模型智能体能力扩展方法
大模型的能力提升依赖于持续获取高质量的数据和反馈信号。虽然预训练阶段已利用大量优质数据,但持续增长的关键在于不断引入新的高质量数据。由于人工数据生产成本高且难以满足需求,探索大模型自我迭代生成和筛选数据的方法变得至关重要。本讲座将探讨大模型基于强化学习的数据再生产过程,其核心挑战在于持续自动化设计并扩展大模型的任务环境、奖励信号,通过应用不同级别的反馈信号进行强化学习,确保只有最有价值的数据用于模型的迭代训练,激发大语言模型的包括认知与元认知能力在内的各项智能能力,以提升大语言模型智能体的泛化能力和决策任务性能。
郭振华
天翼交通科技有限公司
郭振华,男,博士,毕业于香港理工大学。先后在清华大学、阿里云、美国卡耐基梅隆大学等单位工作和访问,现为天翼交通科技有限公司车路协同首席科学家,清华大学/北理工/东南大学等企业导师,正高级工程师。获得广东省人才优粤卡(A卡)、深圳市海外高层次人才、深圳市领军人才等人才称号。主要研究领域为人工智能,计算机视觉,模式识别等领域。近年来在相关领域(IEEE Transactions on Pattern Analysis and Machine Intelligence,IEEE Transactions on Image Processing, IEEE Transactions on Neural Networks and Learning Systems,IEEE Transactions on Information Forensics & Security,IEEE Transactions on Instrumentation and Measurement,International Journal of Computer Vision等)JCR1区期刊和相关领域国际顶级会议(ICCV,ECCV,CVPR,ICLR等)发表论文100余篇,引用近万次。担任The Visual Computer、Electronics等期刊副主编。授权发明专利27项,其中2项美国专利。主持和参与包含国家自然科学基金、863等科研项目10余项,科研经费近千万。曾担任多个国内和国际会议的会议主席和组委会成员。获得国家技术发明奖、中国汽车工程学会科技进步奖、教育部自然科学奖、深圳市青年科技奖、爱思唯尔中国高被引学者、全球前2%顶尖科学家(World's Top 2% Scientists)、中国电子学会科学技术奖、吴文俊人工智能科技进步奖、广东省科学技术奖等十余项奖励。
报告主题: 智能体赋能车路云一体化
随着行业共识从单车智能向车路云一体化转变,车路协同被视为自动驾驶发展的重要方向。车路协同引入路侧更广阔的视野范围,可实现超视距感知,超越人类驾驶能力上限。然而,目前车路协同在实际应用中仍面临诸多挑战,如数据质量不佳、网络稳定性不足、渗透率不高等问题,制约了行业的规模化发展。
从企业自身及技术角度看,车路协同发展需构建技术闭环与商业闭环。技术层面聚焦“车-路-云-网-图”五大要素融合,商业层面则需通过运营服务实现价值转化。本报告重点分享天翼交通结合智能体在智能驾驶和智慧交通的一些应用实践。