RLChina 2025

RLChina 2025 会议日程安排

大会第1天（9 月 20 日）

时间	内容
09:00-12:30	论坛 1：未来RL论坛主持人：赵鉴（北京中关村学院）
	报告题目：从PPO到DPO：一个统一策略优化框架及其在大型语言模型训练中的应用报告人：汪跃（北京中关村学院）
	报告题目：蛋白-配体相互作用引导的多目标强化学习药物设计报告人：闵垚森（北京中关村学院）
	报告题目：基于大语言模型的智能体白盒决策与主动进化报告人：邓悦（北京中关村学院）
	报告题目：迈向真实世界多目标强化学习报告人：张霄远（北京中关村学院）
	报告题目： Modeling Earth-Scale Human-Like Societies with One Billion Agents 报告人：何纪言（北京中关村学院）
09:00-12:30	论坛 2：AI软硬件系统论坛主持人：朱振华（清华大学）
	报告题目：大语言模型辅助的处理器芯片设计报告人：王颖（中国科学院计算技术研究所）
	报告题目：面向生成式模型的软硬协同芯片架构设计报告人：贾天宇（北京大学）
	报告题目：基于量化稀疏的高效训练推理：理论及算法报告人：陈键飞（清华大学）
	报告题目： RLinf: A System for Adaptive, Dynamic, Fine-Grained Scheduling in Reinforcement Learning 报告人：于超（清华大学）
	报告题目：低比特大语言模型：从模型到系统到硬件报告人：曹士杰（微软亚洲研究院）
	报告题目： Ark: An Open-source Python Framework for Robot Learning 报告人： Christopher E. Mower（华为诺亚方舟实验室）
09:00-12:30	论坛 3：数据智能论坛主持人：张文涛（北京大学）
	报告题目： Meta-rater：预训练语言模型的多维数据筛选方法报告人：何聪辉（上海人工智能实验室）
	报告题目：从智能问数到数据智能体：范式演进与反思报告人：骆昱宇（香港科技大学（广州））
	报告题目：多模态数据智能查询与分析系统报告人：柴成亮（北京理工大学）
	报告题目：Data×LLM：云智数据基座与数据密集型分析应用报告人：周煊赫（上海交通大学）
	报告题目：数据视角下的模型压缩加速报告人：张林峰（上海交通大学）
12:30-14:00	午休
14:00-18:00	论坛 4：强化学习理论论坛主持人：李帅（上海交通大学）
	报告题目： BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms 报告人：陈延福（新加坡国立大学）
	报告题目： On Games with Conflicting Interests 报告人：王趵翔（香港中文大学（深圳））
	报告题目： Fusing Reward and Dueling Feedback in Stochastic Bandits 报告人：左金航（香港城市大学）
	报告题目：Bandit Learning in Matching Markets with Indifference 报告人：孔芳（南方科技大学）
	报告题目：Transformer两阶段学习范式报告人：滕佳烨（上海财经大学）
14:00-18:00	论坛 5：推理大模型论坛主持人：袁洋（清华大学）
	报告题目：基于智能体的强化学习数据构建与奖励设计报告人：张辉帅（北京大学）
	报告题目：基于拓扑斯理论的大规模软件辅助生成框架报告人：袁洋（清华大学）
	报告题目：百度研发智能化探索与实践报告人：彭云鹏（百度文心快码）
	报告题目：基于强化学习的大模型推理能力提升报告人：李佳（清华大学）
	报告题目： The Language of Action: Deliberate Minds in Games 报告人：冯熙栋（Google DeepMind）
14:00-18:00	论坛 6：科学智能体论坛主持人：严骏驰（上海交通大学）
	报告题目：数据智能和理实迭代的科研范式探索报告人：朱濯缨（中国科学技术大学）
	报告题目： InternAgent：构建面向通用科研场景的闭环智能体系统报告人：张铂（上海人工智能实验室）
	报告题目： LLM驱动的量子科学智能体报告人：张鹏（天津大学）
	报告题目：可持续进化的多智能体系统报告人：程然（香港理工大学）
	报告题目：大模型自主智能体与工具学习报告人：陈颢天（清华大学）
	报告题目：大语言模型的深度思考能力探索报告人：张启超（中国科学院自动化研究所）
14:00-18:00	论坛 7：多智能体论坛主持人：朱圆恒（中国科学院自动化研究所）
	报告题目：形式逻辑和大模型融合驱动的集群任务规划方法报告人：李忠奎（北京大学）
	报告题目：集群系统协同控制理论及在飞行器集群中的应用报告人：董希旺（北京航空航天大学）
	报告题目：世界模型与机械臂操作报告人：王钢（北京理工大学）
	报告题目： AReaL: a Large-Scale RL System for LLM Agents 报告人：吴翼（清华大学）
	报告题目：基于强化学习的大模型智能体能力扩展方法报告人：温颖（上海交通大学）
	报告题目：智能体赋能车路云一体化报告人：郭振华（天翼交通科技有限公司）
14:00-18:00	论坛 8：计算经济学论坛主持人：王子贺（中国人民大学）
	报告题目： Proper Dataset Valuation by Pointwise Mutual Information 报告人：郑舒冉（清华大学）
	报告题目：Privacy-constraint Signals 报告人：赵玮（清华大学）
	报告题目：Algorithmic Robust Forecast Aggregation 报告人：孔雨晴（北京大学）
	报告题目： A New Paradigm for Generative Auto-Bidding 报告人：蔡庆芃（快手科技）
	报告题目： AI-Driven Mechanism Design for Online Advertising 报告人：祁琦（中国人民大学）

大会第2天（9 月 21 日）

时间	主题
09:00-09:15	开幕式主持人：张海峰（中国科学院自动化研究所）
09:15-12:30	主旨报告 1 报告题目：多模态具身智能连接世界模型、造福人类报告人：张建伟（德国汉堡大学）
	主旨报告 2 报告题目： AI in Chemistry – Challenges and Opportunities 报告人：郭正晓（香港大学）
	主旨报告 3 报告题目：The Path to General Superintelligence 报告人：秦涛（北京中关村学院）
	主旨报告 4 报告题目： Developing the Foundations of Reinforcement Learning: A conversation with 2024 Turing Award Recipient Prof. Richard Sutton 报告人：Richard Sutton （阿尔伯塔大学）
12:30-14:00	午休
14:00-18:00	论坛 9：具身智能论坛主持人：许华哲（清华大学）
	报告题目： InternVLA-A1：理解、想象、执行一体化的具身操作大模型报告人：曾嘉（上海人工智能实验室）
	报告题目：如何构建自适应通用机器人：家用交互场景初探报告人：徐梦迪（清华大学）
	报告题目：观察-协作-反思：从示教与交互中学习物体操纵报告人：胡迪（中国人民大学）
	报告题目：结构化三维理解与决策报告人：顾家远（上海科技大学）
	报告题目：足式机器人强化学习运动控制报告人：齐臣坤（上海交通大学）
	报告题目：生成式大模型驱动的具身智能大规模高质量数据合成报告人：穆尧（上海交通大学）
14:00-18:00	论坛 10：多模态智能体论坛主持人：梁小丹（中山大学）
	报告题目：强化学习在多模态具身大模型中的应用报告人：李浩然（中国科学院自动化研究所）
	报告题目： Bridging the Data Gap: From Synthetic Trajectories to Autonomous Exploration for Tool-Using Multimodal Agents 报告人：李庆（北京通用人工智能研究院）
	报告题目： Unified Multimodal Understanding and Generation：Self-enhancing and GRPO 报告人：徐航（华为）
	报告题目：具身智能视觉-语言-动作多模态大模型研究报告人：仉尚航（北京大学）
	报告题目：基于智能手机GUI操作的智能体报告人：李鸿升（香港中文大学）
14:00-18:00	论坛 11：人机交互论坛主持人：刘鹏飞（上海交通大学）
	报告题目：大规模复杂博弈智能决策报告人：王天宇（复旦大学）
	报告题目： Reinforcement Pre-Training 报告人：董力（微软亚洲研究院）
	报告题目： GUIAgent前沿进展报告人：秦禹嘉（字节跳动）
	报告题目： LLaDA：大语言模型新范式报告人：李崇轩（中国人民大学）
	报告题目：智能体编程的探索、实践、与自省：以 CLI-based Vibe-Coding 为例报告人：周凡（上海交通大学）
	报告题目： Human Agent Interaction 报告人：叶绿满山（上海交通大学）
14:00-18:00	论坛 12：世界模型平台论坛主持人：李勇（清华大学）
	报告题目：动态开放环境智能控制:从强化学习到世界模型报告人：田永鸿（北京大学深圳研究生院）
	报告题目：全模态通用世界模型报告人：鲁继文（清华大学）
	报告题目：世界模型的十字路口：表征学习还是环境建模？报告人：张兆翔（中国科学院自动化研究所）
	报告题目：混元3D世界生成报告人：郭春超（腾讯混元）
	报告题目：城市世界模型：从仿真到生成报告人：高宸（清华大学）
14:00-18:00	论坛 13：智能运筹优化论坛主持人：王长军（中国科学院数学与系统科学研究院）
	报告题目：数据驱动的双链协同智能决策—钢铁工业视角报告人：黄敏（东北大学）
	报告题目： Large Language Models for Optimization Modeling 报告人：王子卓（香港中文大学（深圳））
	报告题目： Shapley-Coop: Credit Assignment for Emergent Cooperation in Self-Interested LLM Agents 报告人：王祥丰（华东师范大学）
	报告题目：Purity Law for Neural Routing Problem Solvers with Enhanced Generalizability 报告人：韩丛英（中国科学院大学）
	报告题目： A Memory Efficient Randomized Subspace Optimization Method for Training Large Language Models 报告人：袁坤（北京大学）

大会第 3-7 天（9 月 22 - 26 日）

时间	9月22日	9月23日	9月24日	9月25日	9月26日
上午	强化学习理论	大模型理论	大模型智能体理论	具身智能理论	多智能体理论
下午	强化学习实践	大模型实践	大模型智能体实践	具身智能实践	多智能体实践

时间	内容
09:00-12:30	论坛 1：未来RL论坛主持人：赵鉴（北京中关村学院）
	报告题目：从PPO到DPO：一个统一策略优化框架及其在大型语言模型训练中的应用报告人：汪跃（北京中关村学院）
	报告题目：蛋白-配体相互作用引导的多目标强化学习药物设计报告人：闵垚森（北京中关村学院）
	报告题目：基于大语言模型的智能体白盒决策与主动进化报告人：邓悦（北京中关村学院）
	报告题目：迈向真实世界多目标强化学习报告人：张霄远（北京中关村学院）
	报告题目： Modeling Earth-Scale Human-Like Societies with One Billion Agents 报告人：何纪言（北京中关村学院）
09:00-12:30	论坛 2：AI软硬件系统论坛主持人：朱振华（清华大学）
	报告题目：大语言模型辅助的处理器芯片设计报告人：王颖（中国科学院计算技术研究所）
	报告题目：面向生成式模型的软硬协同芯片架构设计报告人：贾天宇（北京大学）
	报告题目：基于量化稀疏的高效训练推理：理论及算法报告人：陈键飞（清华大学）
	报告题目： RLinf: A System for Adaptive, Dynamic, Fine-Grained Scheduling in Reinforcement Learning 报告人：于超（清华大学）
	报告题目：低比特大语言模型：从模型到系统到硬件报告人：曹士杰（微软亚洲研究院）
	报告题目： Ark: An Open-source Python Framework for Robot Learning 报告人： Christopher E. Mower（华为诺亚方舟实验室）
09:00-12:30	论坛 3：数据智能论坛主持人：张文涛（北京大学）
	报告题目： Meta-rater：预训练语言模型的多维数据筛选方法报告人：何聪辉（上海人工智能实验室）
	报告题目：从智能问数到数据智能体：范式演进与反思报告人：骆昱宇（香港科技大学（广州））
	报告题目：多模态数据智能查询与分析系统报告人：柴成亮（北京理工大学）
	报告题目：Data×LLM：云智数据基座与数据密集型分析应用报告人：周煊赫（上海交通大学）
	报告题目：数据视角下的模型压缩加速报告人：张林峰（上海交通大学）
12:30-14:00	午休
14:00-18:00	论坛 4：强化学习理论论坛主持人：李帅（上海交通大学）
	报告题目： BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms 报告人：陈延福（新加坡国立大学）
	报告题目： On Games with Conflicting Interests 报告人：王趵翔（香港中文大学（深圳））
	报告题目： Fusing Reward and Dueling Feedback in Stochastic Bandits 报告人：左金航（香港城市大学）
	报告题目：Bandit Learning in Matching Markets with Indifference 报告人：孔芳（南方科技大学）
	报告题目：Transformer两阶段学习范式报告人：滕佳烨（上海财经大学）
14:00-18:00	论坛 5：推理大模型论坛主持人：袁洋（清华大学）
	报告题目：基于智能体的强化学习数据构建与奖励设计报告人：张辉帅（北京大学）
	报告题目：基于拓扑斯理论的大规模软件辅助生成框架报告人：袁洋（清华大学）
	报告题目：百度研发智能化探索与实践报告人：彭云鹏（百度文心快码）
	报告题目：基于强化学习的大模型推理能力提升报告人：李佳（清华大学）
	报告题目： The Language of Action: Deliberate Minds in Games 报告人：冯熙栋（Google DeepMind）
14:00-18:00	论坛 6：科学智能体论坛主持人：严骏驰（上海交通大学）
	报告题目：数据智能和理实迭代的科研范式探索报告人：朱濯缨（中国科学技术大学）
	报告题目： InternAgent：构建面向通用科研场景的闭环智能体系统报告人：张铂（上海人工智能实验室）
	报告题目： LLM驱动的量子科学智能体报告人：张鹏（天津大学）
	报告题目：可持续进化的多智能体系统报告人：程然（香港理工大学）
	报告题目：大模型自主智能体与工具学习报告人：陈颢天（清华大学）
	报告题目：大语言模型的深度思考能力探索报告人：张启超（中国科学院自动化研究所）
14:00-18:00	论坛 7：多智能体论坛主持人：朱圆恒（中国科学院自动化研究所）
	报告题目：形式逻辑和大模型融合驱动的集群任务规划方法报告人：李忠奎（北京大学）
	报告题目：集群系统协同控制理论及在飞行器集群中的应用报告人：董希旺（北京航空航天大学）
	报告题目：世界模型与机械臂操作报告人：王钢（北京理工大学）
	报告题目： AReaL: a Large-Scale RL System for LLM Agents 报告人：吴翼（清华大学）
	报告题目：基于强化学习的大模型智能体能力扩展方法报告人：温颖（上海交通大学）
	报告题目：智能体赋能车路云一体化报告人：郭振华（天翼交通科技有限公司）
14:00-18:00	论坛 8：计算经济学论坛主持人：王子贺（中国人民大学）
	报告题目： Proper Dataset Valuation by Pointwise Mutual Information 报告人：郑舒冉（清华大学）
	报告题目：Privacy-constraint Signals 报告人：赵玮（清华大学）
	报告题目：Algorithmic Robust Forecast Aggregation 报告人：孔雨晴（北京大学）
	报告题目： A New Paradigm for Generative Auto-Bidding 报告人：蔡庆芃（快手科技）
	报告题目： AI-Driven Mechanism Design for Online Advertising 报告人：祁琦（中国人民大学）

时间	主题
09:00-09:15	开幕式主持人：张海峰（中国科学院自动化研究所）
09:15-12:30	主旨报告 1 报告题目：多模态具身智能连接世界模型、造福人类报告人：张建伟（德国汉堡大学）
	主旨报告 2 报告题目： AI in Chemistry – Challenges and Opportunities 报告人：郭正晓（香港大学）
	主旨报告 3 报告题目：The Path to General Superintelligence 报告人：秦涛（北京中关村学院）
	主旨报告 4 报告题目： Developing the Foundations of Reinforcement Learning: A conversation with 2024 Turing Award Recipient Prof. Richard Sutton 报告人：Richard Sutton （阿尔伯塔大学）
12:30-14:00	午休
14:00-18:00	论坛 9：具身智能论坛主持人：许华哲（清华大学）
	报告题目： InternVLA-A1：理解、想象、执行一体化的具身操作大模型报告人：曾嘉（上海人工智能实验室）
	报告题目：如何构建自适应通用机器人：家用交互场景初探报告人：徐梦迪（清华大学）
	报告题目：观察-协作-反思：从示教与交互中学习物体操纵报告人：胡迪（中国人民大学）
	报告题目：结构化三维理解与决策报告人：顾家远（上海科技大学）
	报告题目：足式机器人强化学习运动控制报告人：齐臣坤（上海交通大学）
	报告题目：生成式大模型驱动的具身智能大规模高质量数据合成报告人：穆尧（上海交通大学）
14:00-18:00	论坛 10：多模态智能体论坛主持人：梁小丹（中山大学）
	报告题目：强化学习在多模态具身大模型中的应用报告人：李浩然（中国科学院自动化研究所）
	报告题目： Bridging the Data Gap: From Synthetic Trajectories to Autonomous Exploration for Tool-Using Multimodal Agents 报告人：李庆（北京通用人工智能研究院）
	报告题目： Unified Multimodal Understanding and Generation：Self-enhancing and GRPO 报告人：徐航（华为）
	报告题目：具身智能视觉-语言-动作多模态大模型研究报告人：仉尚航（北京大学）
	报告题目：基于智能手机GUI操作的智能体报告人：李鸿升（香港中文大学）
14:00-18:00	论坛 11：人机交互论坛主持人：刘鹏飞（上海交通大学）
	报告题目：大规模复杂博弈智能决策报告人：王天宇（复旦大学）
	报告题目： Reinforcement Pre-Training 报告人：董力（微软亚洲研究院）
	报告题目： GUIAgent前沿进展报告人：秦禹嘉（字节跳动）
	报告题目： LLaDA：大语言模型新范式报告人：李崇轩（中国人民大学）
	报告题目：智能体编程的探索、实践、与自省：以 CLI-based Vibe-Coding 为例报告人：周凡（上海交通大学）
	报告题目： Human Agent Interaction 报告人：叶绿满山（上海交通大学）
14:00-18:00	论坛 12：世界模型平台论坛主持人：李勇（清华大学）
	报告题目：动态开放环境智能控制:从强化学习到世界模型报告人：田永鸿（北京大学深圳研究生院）
	报告题目：全模态通用世界模型报告人：鲁继文（清华大学）
	报告题目：世界模型的十字路口：表征学习还是环境建模？报告人：张兆翔（中国科学院自动化研究所）
	报告题目：混元3D世界生成报告人：郭春超（腾讯混元）
	报告题目：城市世界模型：从仿真到生成报告人：高宸（清华大学）
14:00-18:00	论坛 13：智能运筹优化论坛主持人：王长军（中国科学院数学与系统科学研究院）
	报告题目：数据驱动的双链协同智能决策—钢铁工业视角报告人：黄敏（东北大学）
	报告题目： Large Language Models for Optimization Modeling 报告人：王子卓（香港中文大学（深圳））
	报告题目： Shapley-Coop: Credit Assignment for Emergent Cooperation in Self-Interested LLM Agents 报告人：王祥丰（华东师范大学）
	报告题目：Purity Law for Neural Routing Problem Solvers with Enhanced Generalizability 报告人：韩丛英（中国科学院大学）
	报告题目： A Memory Efficient Randomized Subspace Optimization Method for Training Large Language Models 报告人：袁坤（北京大学）

RLChina 2025 SCHEDULE

导航

联系方式