RLChina 2024

1、强化学习前沿

主持人

讲者介绍

魏巍

山西大学

课件下载视频回放
魏巍，博士、教授，山西大学计算机与信息技术学院副院长。担任中国人工智能学会（CAAI）知识工程与分布智能专委会副秘书长、粒计算与知识发现专业委员会常委，中国计算机学会（CCF）人工智能与模式识别专业委员会执行委员、大数据专家委员会执行委员、YOCSEF太原分论坛2022-2023年度主席。近年来，主持和参与国家重点研发计划项目、国家自然科学基金重点项目、国家自然科学基金项目、山西省自然科学基金项目10余项。长期从事强化学习、表示学习、粒计算等领域的研究，先后在《IEEE TKDE》、《Machine Learning》、ICML、NeurIPS、AAAI等重要学术期刊会议发表论文40余篇，获国家发明专利4项。

报告主题：强化学习：从理论迈向实际——聚焦Safe RL和Offline RL

近年来，强化学习研究正逐步从理论探索迈向实际应用，但此过程面临多重挑战。本报告聚焦于Safe RL与Offline RL两大领域，针对策略安全性不足及分布外数据泛化难度大的问题，深入探讨了有界信念状态估计、可扩展的约束策略优化，以及在离线环境下如何抑制过度泛化并拓宽泛化边界等内容，旨在为提升强化学习算法的安全性能与泛化能力提供新的思路。

李斯源

哈尔滨工业大学

李斯源，博士，副教授，硕导，就职于哈尔滨工业大学计算学部模式识别与智能系统研究中心。主要研究方向为具身智能、深度强化学习、多智能体系统等。在CCF A/B类会议和期刊上发表20余篇高水平学术论文。获得2023年度CCF多智能体学组优秀博士生论文奖、华为难题揭榜火花奖等。担任中国指挥与控制学会空间信息通信技术专委会执行委员、中国人工智能学会具身智能专委会执行委员，多次担任NeurIPS, ICML, IJCAI等CCF A类会议审稿人，作为负责人承担国家自然科学基金青年基金。

报告主题：面向长序列复杂任务的操作技能学习与规划

操作能力是通用机器人必备的重要能力之一，尤其是在处理长序列复杂任务时，智能操作面临着巨大的挑战。基于强化学习的操作技能学习已经展现了显著成效，但强化学习的奖励设计往往依赖大量专家的先验知识，如何自动化生成奖励函数仍是一个亟待解决的问题。除了自动化奖励生成，模仿学习作为一种无需设计奖励函数的操作技能学习范式，而如何通过模仿学习生成具备高鲁棒性的操作技能则是另一个重要的研究难题。此外，单一操作技能只能应对简单的子任务，如何对现有技能进行规划以完成长序列的复杂现实任务，具有重要的研究意义。本报告将从三个方面展开讨论：包括强化学习的奖励自动生成、鲁棒的视觉模仿学习以及基于大模型的任务规划。

袁雷

南京大学

袁雷：南京大学人工智能学院助理研究员，师从俞扬教授，研究方向为强化学习、多智能体强化学习及多智能体具身智能，在人工智能顶级会议与期刊上发表论文30余篇，获DAI2023最佳论文奖。担任TPAMI、SCIS、MLJ、ICML、ICLR、NeurIPS、AAAI、IJCAI、ECAI、DAI等审稿人。

报告主题：面向开放环境的协作多智能体强化学习方法

强化学习近年来成为复杂多智能体任务的强有力解决途径之一，在军事国防、智慧城市与低空经济等领域有广泛需求。以往的大量研究虽然在游戏等展示出良好的协作能力，但在实际任务中却难以应用。其主要障碍在于，面向封闭环境设计的算法难以应对实际应用场景中的开放条件，其中的重要因素可能会发生改变，存在“交互繁杂”、“环境动荡”、“协作多变”等特点。本报告将从多智能体强化学习、开放环境下的多智能体强化学习方面展开，并展望在多智能体世界模型学习、多智能体具身智能方面的未来的研究方向。

张乔生

上海人工智能实验室

张乔生，上海人工智能实验室青年研究员，入选国家级青年人才计划。于香港中文大学获得学士和博士学位，曾在新加坡国立大学和佐治亚理工学院分别担任博士后研究员和访问学者。研究兴趣为信息论、强化学习、大语言模型等，成果发表于IEEE Transactions on Information Theory (TIT)、ICML、ICLR等期刊会议中，获香农奖得主、AMS/ACM/IEEE Fellow等知名学者以及MIT、Princeton、Berkeley、ETH、EPFL、Google等研究机构的引用与积极评价。

报告主题： Information-Directed Sampling: A Provably Sample-Efficient Approach for Decision-Making Problems

Most existing provably sample-efficient RL algorithms are based either on the principle of optimism in the face of uncertainty (OFU) or on Thompson sampling. In contrast, this talk introduces an alternative and principled exploration strategy known as information-directed sampling (IDS). Inspired by foundational concepts in information theory, IDS tackles the exploration-exploitation tradeoff by requiring the agent to balance the policy’s sub-optimality (exploitation) and the acquired information about a learning target (exploration). IDS is applicable not only to single-agent RL (MDP) but also to multi-agent RL (Markov games) and reinforcement learning from human feedback (RLHF). Theoretical analysis demonstrates that IDS-based algorithms can achieve near-optimal regret bounds of order O(\sqrt{T}) over T episodes in all these settings, showcasing their sample efficiency and expanding the set of known algorithms that satisfy an O(\sqrt{T}) regret bound.

赵鉴

南栖仙策

课件下载视频回放
赵鉴，南栖仙策(南京)科技有限公司算法副总裁，东南大学校外硕导，分别于2018年和2023年在中国科学技术大学获得学士与博士学位。他曾在微软亚洲研究院等机构学习工作，科研领域包括游戏AI、强化学习和多智能体系统，目前在国内外学术期刊和会议上发表论文二十余篇。他曾获得第一届腾讯开悟多智能体强化学习大赛冠军，RLChina 智能体挑战赛2021夏季赛冠军，2022春季赛冠军等奖项。目前在南栖仙策主要从事强化学习的应用落地业务。

报告主题：强化学习的产业化探索

尽管强化学习技术发展迅猛，但因其高度依赖虚拟环境的特性以及在处理不同类型任务时难以实现标准化开发和训练，强化学习长期以来一直处于定制化服务的阶段，造成其产业化和商业化的问题。因此，本次报告将从AI领域产品化的角度出发，结合南栖仙策在强化学习领域的生产实践，探讨如何通过技术创新和流程标准化等手段加速强化学习的产业化进程，促进科技价值与商业价值的对接，并分享我们在实现强化学习产业化过程中的探索和思考。

2、智能体创新应用

主持人

郝建业

华为诺亚方舟实验室

讲者介绍

张长旺

OPPO研究院

课件下载视频回放
张长旺是伦敦大学学院(UCL)博士，CCF理论计算机科学专业委员会常务委员。他目前任职OPPO研究院，研究方向是信息检索（搜索, 推荐, 广告）+ Agent技术。他曾多次担任人工智能会议AAAI高级程序委员会(SPC)成员。他有8年+在阿里、腾讯、华为、OPPO公司的AI研发经历，并曾是腾讯校招官方技术宣讲嘉宾，曾是腾讯犀牛鸟精英人才培养计划导师。

报告主题： AI Agent业界进展和发展趋势

本报告聚焦“AI Agent业界进展和发展趋势”。首先，以实例分析当前AI Agent在业界的最新进展情况。接着，对其未来发展趋势进行展望，探讨可能出现的新技术突破方向和应用场景。希望为相关行业从业者、研究者及决策者提供有价值的参考和洞察。

马亿

山西大学

马亿，博士，校聘副教授，2024年博士毕业于天津大学智能与计算学部强化学习实验室，研究方向为强化学习、具身智能及强化学习的应用。近年来，在NeurIPS、ICML、ICLR、AAAI、 IJCAI、KDD、CIKM等人工智能和数据挖掘国际顶级会议上发表论文20余篇，并担任各类国际会议和期刊审稿人。曾获华为2012实验室创新先锋二等奖、NeurIPS 2022自动驾驶比赛双赛道冠军、军科委全国兵棋推演大赛一等奖、天津大学优秀博士论文、NeurIPS Top Reviewer等荣誉，研究成果在阿里妈妈广告竞价、华为物流运输、问界自动驾驶等多个场景进行试点和应用。更多信息详见:https://mayi1996.top/

报告主题：离线强化学习视角下的决策智能

本报告探讨了离线强化学习在决策智能领域的应用与发展。离线强化学习是一种通过利用已有的数据集来训练智能体的方法，避免了在线学习过程中对环境的实时交互需求，从而显著提升了决策效率和安全性。本文首先概述了离线强化学习的基本概念及其与传统在线学习的区别，随后，报告将重点讨论当前的研究进展，包括离线数据的标注与优化、离线训练算法的设计以及在线快速调优等。接着，报告分析了将强化学习和离线强化学习应用在各类实际场景中的优势与挑战。结合未来的研究方向，指出离线强化学习在推动大模型时代下智能决策系统智能化、泛化性和适应性方面的潜力。

毛航宇

快手科技

课件下载
毛航宇，就职于快手科技，快意大模型知识增强研发负责人。主要关注Agent, RAG, Alignment, RL, LLM等技术，在ICLR及NeurIPS, ICML等CCF-A/B类会议和期刊上发表论文30余篇，申请美国专利和华为高潜专利多项，相关研究在企业场景落地并产生较大效益。担任上述会议的PC, Senior PC, Area Chair，中国数据挖掘会议（CCDM）的论坛主席，以及CCF多智能体学组的执行委员。曾获国际人工智能会议NeurIPS强化学习竞赛冠军（团队负责人）、中国计算机学会“多智能体研究优秀博士论文奖”（当年度全国唯一）、北京市“优秀毕业生”（当年度北大网络所唯一博士）、华为“创新先锋总裁奖”（当年度仅次于盘古大模型）。

报告主题：从强化学习(多)智能体到大语言模型(多)智能体

以ChatGPT为代表的大语言模型是人工智能领域最火爆的研究热点之一，而AI Agent是大语言模型最有潜力的应用方式之一。本报告以智能体（Agent）为线索，首先梳理基于强化学习的决策智能体和多智能体研究，其次介绍基于大语言模型的AI Agent和AI Agents研究，最后在不泄露公司机密的前提下分享一些企业实践中的心得体会。

胡舒悦

上海人工智能实验室

胡舒悦，上海人工智能实验室青年研究员。

报告主题： Emergence of Social Norms in Generative Agent Societies: Principles and Architecture

Social norms play a crucial role in guiding agents towards understanding and adhering to standards of behavior, thus reducing social conflicts within multi-agent systems (MASs). However, current LLM-based (or generative) MASs lack the capability to be normative. In this paper, we propose a novel architecture, named CRSEC, to empower the emergence of social norms within generative MASs. Our architecture consists of four modules: Creation & Representation, Spreading, Evaluation, and Compliance. This addresses several important aspects of the emergent processes all in one:(i) where social norms come from,(ii) how they are formally represented,(iii) how they spread through agents’ communications and observations,(iv) how they are examined with a sanity check and synthesized in the long term, and (v) how they are incorporated into agents’ planning and actions. Our experiments deployed in the Smallville sandbox game environment demonstrate the capability of our architecture to establish social norms and reduce social conflicts within generative MASs. The positive outcomes of our human evaluation, conducted with 30 evaluators, further affirm the effectiveness of our approach.

邵坤

华为诺亚方舟实验室

课件下载视频回放
邵坤，华为诺亚方舟实验室研究员。

报告主题： (M)LLM-based Smartphone Agents: Benchmarking, Offline Finetuning and Online Optimization

Smartphone agents are becoming increasingly vital for enabling users to manage devices efficiently, with (M)LLM-based agents emerging as front-runners. In this talk, I will introduce an extensive benchmark for smartphone agents, specifically designed to evaluate the performance of MLLM-based agents in end-to-end setting. To address the computational limitations of smartphones, we propose the lightweight multi-modal App control architecture. This involves integrating a compact action transformer with a lightweight MLLM for real-time decision-making and task execution. Finally, I will unveil a novel framework aimed at enhancing the efficiency of online reinforcement learning for smartphone agents. This framework employs a distributed RL approach to seamlessly bridge the gap between offline training and dynamic, real-time interactions.

徐丰力

清华大学

徐丰力博士，清华大学电子工程系助理教授，入选2023年国家级青年人才计划，2020年于清华大学取得博士学位，2020-2023年先后在香港科技大学、芝加哥大学从事博士后研究工作。研究兴趣包括人工智能、社会计算和网络科学，旨在通过数据驱动和人工智能的方法建模复杂信息系统。曾作为第一作者和通信作者在自然-人类行为（Nature Human Behaviour）、自然-计算科学（Nature Computational Science）和科学院院刊（PNAS）等高水平综合性期刊发表论文，并在NeurIPS、WWW、KDD、Ubicomp等顶级会议与期刊发表论文40余篇。曾获吴文俊人工智能优秀青年奖、CAAI社会计算新星学者奖、微软学者奖研金（MSRA Fellowship）、UBICOMP最佳论文提名、清华大学优秀博士毕业生、CCF优秀博士学位论文提名、ACM SIGSPATIAL中国分会优博奖等学术荣誉。

报告主题：大模型智能体的高效推理与自主优化机制研究

大语言模型的快速发展涌现出了与人类相似的上下文学习和常识推理能力。在此背景下，智能体工作流（Agentic Workflow）的设计成为了释放大语言模型应用潜力的重要途径。然而，现有研究普遍面临智能体推理开销大、难以自主适应不同领域等重要挑战。针对这些挑战，讲者将在本次报告中重点探讨人类认知理论启发的智能体推理框架，通过有效协同云端大模型和本地小模型实现智能体高效推理。此外，本报告还将介绍大模型智能体的自动化设计框架，实现任务自适应的智能体工作流优化搜索。

孙亮

中国石油规划总院

孙亮，中国石油规划总院高级专家

报告主题：决策智能在油气行业生产经营领域中的探索和应用

决策智能在油气行业生产经营领域中一些研究探索和案例分享

3、多智能体合作与博弈

主持人

余超

中山大学

讲者介绍

王轩

哈尔滨工业大学

王轩，男，教授，博士生导师，哈深资产公司董事长，鹏城国家实验室研究员&AI赋能重大项目负责人。中国人工智能学会常务理事/组织工委会副主任，广东省计算机学会副理事长，深圳市计算机学会理事长，广东省安全智能新技术重点实验室主任，广东省决策智能重点实验室主任，哈工大决策智能研究所所长，计算机应用研究中心主任，粤港澳大湾区互联网联盟理事长，平安-哈工大粤港澳智慧金融研究中心主任，理光-哈工大联合实验室主任。研究领域包括人工智能和网络空间安全，主持或参与国家科技重大专项、国家重点研发计划、国家自然科学(重点)、国家科技计划重点项目以及来自华为、中兴、微软、平安等企业项目百余项，获国家教育部一等奖、国家航天部二等奖、广东省科技进步一等奖，黑龙江省发明一等奖、深圳市科技进步奖，获得国家发明专利40余项，发表学术论文(SCI /EI检索)300余篇，专著三部。在人工智能的智能人机交互方向，是微软拼音（Microsoft PY）主要发明人之一，提出的最少元素中文语句级智能输入技术是远东地区信息处理的首创性解决方案，分别授权给美国微软、日本佳能等，用户数亿计。在人工智能博弈决策方向，具有超过20年的研究积累，在非完全信息博弈决策的建模理论、信息度量、策略求解等方面具有开创性贡献，其研究成果在政治、经济和军事领域具有重要的应用价值。在网络空间安全方向，王轩教授围绕网络空间的管辖权、防卫权、独立权和平等权四个方向展开研究。作为鹏城国家实验室AI赋能重大项目负责人，积极致力于推进智能交通、智慧医疗、智慧健康和智慧金融等方向的核心技术的研发与应用，取得了显著的经济和社会效益。

报告主题：大规模复杂博弈智能决策

本报告以复杂博弈智能决策为主题，从博弈理论和强化学习相结合的技术路线出发，探讨博弈决策系统的智能性、拟人性、可解释性以及人机协同方面的研究进展。报告最后介绍复杂博弈决策技术在军事、金融等重大领域的应用。

王震

西北工业大学

王震，西北工业大学教授，网络空间安全学院院长、国家保密学院常务副院长，智能交互与应用工信部重点实验室常务副主任，西安市智能科学技术国际科技合作基地负责人，入选国家杰青、国防科技创新团队（首席科学家）、欧洲科学院院士、欧洲科学与艺术院院士、IEEE/IOP/AAIA Fellow、全球高被引科学家（2019-2023）、国家青年特聘专家、陕西省科技创新团队（首席科学家），担任数个全国一级学会常务理事、理事、专委会副主任，10余个IEEE汇刊和Elsevier期刊的编委（例如IEEE TNNLS、IEEE TCYB、IEEE TKDE、IEEE TSMC、IEEE TCDS）。获全国创新争先奖章、五一劳动奖章、中国青年五四奖章、科学探索奖、教育部自然科学奖一等奖、陕西省自然科学奖一等奖、中国航空学会科技进步奖一等奖、中国电子学会技术发明奖一等奖、首届MIT-TR 35，China（西部唯一）等奖项和荣誉。围绕体系博弈对抗、智能无人系统，项目负责人以第一作者或通讯作者在Nature Communications、Science Advances、PNAS、PRL、IEEE TPAMI、IEEE TKDE、IEEE TNNLS、IEEE TCYB、中国科学、WWW、IJCAI、AAAI、NeurIPs、ICML等知名期刊和会议发表系列成果，WoS引用20000余次，H指数68，授权发明专利、国防专利11项，获批行业标准5份。

报告主题：博弈驱动的动态杀伤网敏捷构建关键技术

杀伤网是一种针对敌方威胁目标，我方各对抗要素根据规定的编排架构，按特定顺序依次发挥效能，从而实现对目标软硬杀伤的任务模式。本报告针对远距意图推理、中距轨迹预测、近距动作识别，提出基于博弈的动态杀伤网敏捷构建技术，主要介绍动态敏捷杀伤网体系架构设计、异构资源动态组织运用、时敏目标快速搜索与打击、杀伤网打击效能评估等关键技术，以及未来的研究展望。

兰旭光

西安交通大学

兰旭光，教授，博士生导师，国家杰出青年科学基金获得者，国务院学位委员会学科评议组成员。2005年12月在西安交通大学模式识别与智能系统专业获得工学博士学位。2005年5月到法国里昂中央理工大学作访问研究；同年12月进入西安交通大学计算机专业做博士后研究；2013.9-2014.10月在美国西北大学做访问学者。现任西安交通大学人工智能学院教授、党委书记。主持国家杰出青年科学基金、国家自然科学基金重点、国家科技重大专项、科技创新2030人工智能重大项目、973课题、863等科研项目10余项。担任中国自动化学会共融机器人专委会主任委员，中国认知科学学会理事、副秘书长，人工智能学会“认知系统与信息处理”专委会副主任委员，仿真学会“智能无人系统建模仿真”专委会副主任委员。在人工智能与机器人领域的著名期刊和会议上如IEEE Trans和ICML/CVPR/RSS等发表论文110余篇，获得国家发明专利授权20余项，出版编著1部。担任国际期刊IEEE Transactions on Neural Network Learning System、《机器人》和《模式识别与人工智能》等期刊的编委。获2023年度“人工智能高层次人才培养新体系”项目高等教育（研究生）国家级教学成果一等奖（6/15）。曾担任IEEE CYBER2019 和ICIRA2021大会联合程序主席，IEEE RCAR2023大会主席，IEEE 高级会员。

报告主题：世界模型驱动的机器人自主学习与协同决策理论及应用

本报告简要介绍人工智能大模型方面的现状与挑战，进而介绍机器人自主学习与多智能体协同决策领域中取得的研究进展。针对稀疏奖励探索效率低问题，提出了基于信赖域经验回访的机器人自主策略优化方法以及基于数据蒸馏的持续学习方法。在多智能体协同决策中，多智能体系统通过与环境交互提升协同认知和联合行为能力，但存在交互不稳定、策略评估不准确等问题，针对以上问题我们提出了基于贪婪值函数表征的多智能体最优协作方法，构建了最优一致性指标，即使非完整表征，依然能使得多智能体协同达到最优；进一步提出了可微的有向无环通信图作为意图分享的基础，并根据这一层级通信图，分别构建了联合策略、联合值函数的分解方法，提升了信息交互的效率。此外，报告还简要介绍相关方法在多人游戏、航空与航天等领域上的应用。

张俊格

中国科学院自动化研究所

张俊格，中科院自动化所研究员，中科院特聘核心岗位研究员，博士生导师，获中国科学院基础领域稳定支持青年团队支持。张俊格博士主要从事博弈智能、多智能体系统、决策大模型以及通用人工智能相关领域研究。张博士近3年以来带领团队研发的兵棋推演AI和德州扑克AI均是业内顶尖水平，2023年获得中国指控学会科技进步一等奖。

报告主题：多智能体高效合作学习

朱圆恒

中国科学院自动化研究所

朱圆恒，中科院自动化研究所副研究员，硕导。长期从事博弈决策智能研究工作，针对复杂多智能体系统存在的动态博弈性强、多体难协同、实体难应用的科学问题，建立动态博弈均衡基础理论，揭示多智能体强化学习的协同优化机理，在典型虚拟与实体无人系统协同与对抗场景取得技术突破。已发表论文70余篇，专著2本，其中IEEE/Top期刊论文30篇，ESI高被引论文2篇，获IEEE TASE/TETCI期刊年度唯一杰出论文奖。成果被国内外权威专家包括院士和Fellow正面评价和引用，包括Nature论文引用。任领域顶刊IEEE TNNLS/ToG编委，2022年IEEE游戏大会程序委员会主席。任国家基金重大项目课题负责人，中科院XD课题负责人等。排序第2分别获2022年北京市自然科学二等奖和2023年天津市自然科学二等奖。获国际主流竞赛冠军或一等奖7次，获中国科学院大学研究生优秀课程奖。入选北京市科技新星，中科院青促会，全球前2%顶尖科学家榜单，IEEE高级会员。

报告主题：多智能体团队零和博弈强化学习研究和实体无人系统应用

多智能体团队零和博弈的问题特点是团队内部存在协同合作，而团队之间是零和竞争关系。相比于个体的零和博弈，团队零和由于智能体数量的增加决策空间成组合爆炸，而且智能体之间复杂交互关系显著增加了博弈求解的计算复杂度。本次报告梳理了动态博弈场景的典型博弈均衡求解方法，并基于博弈论中两人零和理论和多智能体强化学习设计了面向两团队零和博弈的分解原理和在线学习方法，在离散动作空间和连续动作空间问题上实现个体策略学习优化。为了将相关理论与方法从游戏仿真环境向现实世界应用，团队搭建了基于实体机器人的无人博弈对抗系统，在感知、规划、控制等功能的支撑下，将提出的博弈决策方法应用在机器人群体博弈对抗上，取得超越传统方法的效果。

陈晨

启元实验室智能基础理论研究中心

2014年博士毕业于中科院数学与系统科学研究院，2014-2022就职于华为诺亚方舟实验室，2022至今就职于启元实验室智能基础理论研究中心。长期从事强化学习的基础算法研究与应用落地，在人工智能和控制理论顶级会议和期刊NeurIPS、ICML、AAAI、CIKM、IFAC、IEEE TAC等发表论文20余篇。

报告主题：群体智能决策——算法、平台与应用

4、大模型与智能体

主持人

刘鹏飞

上海交通大学

讲者介绍

戈维峰

复旦大学

戈维峰，复旦大学计算机科学技术学院青年副研究员。博士毕业于香港大学计算机科学系，于2020年获得香港大学李嘉诚奖和杰出研究生奖提名，主持并参与国家自然科学基金、国家重点研发计划课题等多个科研项目，入选上海市浦江人才计划和上海市海外高层次人才引进计划。目前专注于计算机视觉、深度学习和人形机器人通用智能方向的研究，在本领域顶级期刊和会议（ACM TOG/CVPR/ICCV/ECCV/ NeurIPS/AAAI等）发表论文 30 余篇。此外，戈维峰博士担任中国计算机学会上海青年精英论坛执行主席和上海市计算机学会多媒体专委会秘书长，还担任多个国际学术会议的技术委员会成员，包括CVPR、ICCV、ECCV、AAAI、NeurIPS等。

报告主题：人形机器人智能体

人形机器人作为人工智能技术的通用载体和终极形态，体现了人类长久以来希望构造出与自身形象相似的智能机器的理想。它有望成为通用机器人平台，解决家政服务、康复辅助、安全巡检和工业制造等多个领域因劳动力短缺带来的挑战。具身智能技术是实现机器人智能化的关键，能够使机器人通过与环境的感知和交互，自主完成各类任务。然而，如何将人形机器人发展为具身智能技术的通用终端载体，是一个极具挑战性的课题。本次报告将重点介绍我们团队在人形机器人领域的初步探索，涵盖四个核心研究方向：多模态感知、学习与决策（大脑）、仿人运动控制（小脑）、灵巧的五指操作，以及物理仿真与虚实融合。同时，我们将分享团队对具身智能技术的理解，并探讨如何通过人形机器人作为智能载体，推动具身智能技术的发展。希望通过本次报告，促进与领域内专家的深入交流，推动人形机器人和通用人工智能技术的进一步创新与发展。

高莘

电子科技大学

视频回放
高莘，电子科技大学研究员、博士生导师。主要研究方向为预训练语言模型、大模型智能体和工具学习。在国际顶级会议期刊发表文章40余篇。目前担任中国中文信息学会青年工作委员会执行委员、信息检索专委会通讯委员、CCF自然语言处理专委委员。担任自然语言处理国际顶级会议ACL领域主席、IJCAI高级程序委员会委员等。获得中国电子学会科技进步三等奖（排名第三）。主持国家自然科学基金青年基金、重点项目课题等科研项目。

报告主题：面向复杂任务的多智能体协同方法

王维埙

阿里巴巴

视频回放
王维埙，阿里巴巴算法专家，天津大学博士，博士导师为郝建业副教授。研究兴趣为：强化学习、多智能体系统及其在不同领域中的运用，当前主要关注强化学习在大模型优化中的探索。于ICLR、ICML、NeurIPS等会议发表强化学习领域论文数十篇，参与Marllib、OpenRLHF等开源项目，并关注强化学习实现中的各项细节（ICLR-Blog，The 37 implementation details of proximal policy optimization）。

报告主题：大语言模型优化中的强化学习回顾及实践

张超

清华大学

张超，清华大学电子工程系助理教授，伦敦大学学院脑科学部名誉副教授，中文信息学会语音信息专委会副秘书长。清华大学计算机系本科、硕士。2017年获剑桥大学信息工程学博士学位，曾任任剑桥大学副研究员、客座研究员，京东公司顾问、语音组联合负责人，谷歌公司高级研究科学家。在语音语言处理领域发表80余篇会议和期刊论文，曾获ICASSP、Interspeech、ASRU和SLT等语音领域内旗舰级会议最佳学生论文奖。

报告主题：

王露

微软亚洲研究院

王露，Microsoft主管研究员，博士毕业于华东师范大学，研究方向为sample efficiency RL，imitation learning, RLHF in LLM。在AI等级会议和期刊发表论文50余篇。

报告主题： Training Agents with LLMs: Harnessing AI to Train AI

林洲汉

上海交通大学

林洲汉，上海交通大学约翰·霍普克罗夫特计算机科学中心的副教授和副主任。在加入上海交大之前，曾在Facebook AI Research（FAIR）担任访问科学家。林博士于2019年在蒙特利尔大学的Mila实验室获得计算机科学博士学位，导师为Yoshua Bengio博士。他的核心研究兴趣是探索和开发能够从海量数据中获取、形成、推理和交互抽象概念的机器智能。林博士提出了自注意力机制的早期版本，该机制后来被集成到著名的Transformer和图注意力网络中。据Google Scholar统计，他的论文被引用超过9000次，其中两篇论文的引用次数均超过2000次，另有10篇论文的引用次数超过100次。林博士曾在多个顶级会议中担任领域主席，如EMNLP、AAAI、COLING和AACL等。

报告主题：大语言模型的高效计算

广泛存在于LLM隐层表征和自注意力机制中的信息冗余是许多方法加速LLM计算的关键，例如KV缓存压缩或注意力值修剪。在本次演讲中，我们将首先回顾LLM出现之前的诸多加速算法和模型，并从基于变换的方法的角度，展示LLM隐层表征中的信息冗余。接着，我们将介绍现在流行的纯解码器LLM架构中发展出来的算法级KV缓存压缩方法及相关研究工作。

5、决策智能理论

主持人

讲者介绍

刘勇

中国人民大学

课件下载视频回放
刘勇，中国人民大学，副教授，博士生导师，国家级高层次青年人才。长期从事机器学习基础理论研究，共发表论文100余篇，其中以第一作者/通讯作者发表顶级期刊和会议论文近50篇，涵盖机器学习领域顶级期刊JMLR、IEEE TPAMI、Artificial Intelligence和顶级会议ICML、NeurIPS等。获中国人民大学“杰出学者”、中国科学院“青年创新促进会”成员、中国科学院信息工程研究所“引进优青”等称号。主持国家自然科学面上/基金青年、北京市面上项目、中科院基础前沿科学研究计划、腾讯犀牛鸟基金、CCF-华为胡杨林基金等项目。

报告主题：检索增强（RAG）能提升大模型的推理能力吗？

检索增强（RAG）通过引入外部知识能有效提升了模型的回答准确性与知识广度，在解决大型语言模型（LLM）幻觉问题及增加模型知识容量方面扮演着重要作用。然而，RAG为什么有效、边界在哪尚不清楚，现阶段关于RAG工作机制的研究相当匮乏，这一定程度上限制了RAG算法的进一步优化和改进。本报告将从原理上阐明RAG能提升LLM的推理能力，但对于复杂推理任务提升效果有限。在此基础上，进一步探究在检索文档有噪音情况下，RAG的推理表现，并给出了可能算法改进路径。

李帅

上海交通大学

课件下载视频回放
李帅，上海交通大学约翰·霍普克罗夫特计算机科学中心副教授，研究方向为强化学习算法与机器学习理论。李帅曾获得浙江大学竺可桢学院数学学士学位、中国科学院数学与系统科学研究院基础数学硕士学位、香港中文大学计算机科学与工程博士学位，于2019年加入上海交通大学约翰·霍普克罗夫特计算机科学中心。曾于2018年获得谷歌全球博士奖学金，2020年获得上海市扬帆人才计划。

报告主题： Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond

We introduce a novel framework of combinatorial multi-armed bandits (CMAB) with multivariant and probabilistically triggering arms (CMAB-MT), where the outcome of each arm is a d-dimensional multivariant random variable and the feedback follows a general arm triggering process. Compared with existing CMAB works, CMAB-MT not only enhances the modeling power but also allows improved results by leveraging distinct statistical properties for multivariant random variables. For CMAB-MT, we propose a general 1-norm multivariant and triggering probability-modulated smoothness condition, and an optimistic CUCB-MT algorithm built upon this condition. Our framework can include many important problems as applications, such as episodic reinforcement learning (RL) and probabilistic maximum coverage for goods distribution, all of which meet the above smoothness condition and achieve matching or improved regret bounds compared to existing works. Through our new framework, we build the first connection between the episodic RL and CMAB literature, by offering a new angle to solve the episodic RL through the lens of CMAB, which may encourage more interactions between these two important directions. This work is published at ICML 2024.

周帆

上海财经大学

视频回放
周帆现为上海财经大学统计与管理学院副教授，博士生导师，博士毕业于美国北卡罗来纳大学教堂山分校生物统计系。在包括Journal of the American Statistical Association，Journal of Machine Learning Research，Biometrics，NeurIPS，ICML ，KDD，IJCAI等统计学，机器学习顶刊和顶会上发表了数十篇文章，曾获泛华统计协会国际会议新研究者奖，北卡罗来纳大学教堂山分校生物统计系Barry H. Margolin奖，入选多个省部级人才计划，担任包括统计学顶刊Journal of the American Statistical Association在内的多个统计学，机器学习期刊编委。

报告主题： Two-way Deconfounder for Off-policy Evaluation under Unmeasured Confounding

This paper studies off-policy evaluation (OPE) in the presence of unmeasured confounders. Inspired by the two-way fixed effects regression model widely used in the panel data literature, we propose a two-way unmeasured confounding assumption to model the system dynamics in causal reinforcement learning and develop a two-way deconfounder -- an algorithm that leverages the temporal and individual dependence among the latent factors to achieve consistent policy value estimation. Two-way deconfounder devises a relational neural network to simultaneously learn both the unmeasured confounders and the system dynamics, based on which a model-based estimator can be constructed to estimate the policy value. We illustrate the effectiveness of the proposed estimator through a combination of theoretical results and numerical experiments.

孔芳

南方科技大学

课件下载视频回放
孔芳，现担任南方科技大学统计与数据科学系助理教授、副研究员、博士生导师。她的主要研究方向为在线学习和强化学习理论，在SODA、COLT、ICML等理论计算机和机器学习领域顶级会议上发表研究成果十余篇，于多智能体顶级会议AAMAS上给出在线学习相关教程，并担任ICML，NeurIPS，TPAMI，TMLR等学术会议和期刊的审稿人。曾获得百度奖学金和多次国家奖学金。

报告主题：匹配市场中的多臂赌博机算法

匹配市场问题在人才培养、资源分配等多个领域扮演着至关重要的角色，是计算机科学和经济学领域重点关注的多智能体博弈场景。由于市场中单个参与者对其他参与者的了解有限，依据不确定性偏好信息计算出的匹配关系难以保持长期稳定。为了解决这一问题，多臂赌博机算法近年来在匹配市场的研究中受到广泛关注，旨在高效学习参与者的偏好，同时确保市场快速收敛至均衡状态，从而提高市场整体的效率和稳定性。本文分别考虑了一对一和多对一匹配市场，有效将玩家间的博弈交互耦合进玩家个体的学习过程，设计了高效的学习算法并理论证明其稳定懊悔及激励兼容性水平。本文所提出算法的稳定懊悔结果大幅提升了领域已有结果，完善了匹配市场中多臂赌博机问题的理论框架。

陈思宇

耶鲁大学

视频回放
I am a 3rd-year Ph.D. student in the Department of Statistics & Data Science at Yale University, advised by Professor Zhuoran Yang. My research focuses on deep learning and reinforcement learning, with an emphasis on exploring the inner workings of large language models (LLMs).

报告主题： Actions Speak What You Want: Provably Sample-Efficient Reinforcement Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks

We study reinforcement learning (RL) for the purpose of learning a Quantal Stackelberg Equilibrium (QSE) in an episodic Markov game with a leader-follower structure. Specifically, at the start of the game, the leader commits to a policy, which is observed by the follower. In response, the follower adopts a quantal response policy by solving an entropy-regularized policy optimization problem influenced by the leader's policy. The leader’s objective is to identify her optimal policy, maximizing expected total return by interacting with the follower and learning from the data. A central challenge of this problem is that the leader cannot directly observe the follower’s reward and must infer the follower’s quantal response model from their actions in response to the leader's policies. We propose sample-efficient algorithms for both online and offline settings, within the context of function approximation. Our algorithms rely on two key components: (i) learning the quantal response model via maximum likelihood estimation, and (ii) applying model-free or model-based RL to solve the leader's decision-making problem. We establish that these algorithms achieve sublinear regret bounds. Additionally, we quantify the uncertainty in these estimators and use it to develop optimistic and pessimistic algorithms for online and offline learning. Moreover, in the linear and myopic setting, our algorithms are also computationally efficient.

6、智能体训练系统与仿真环境

主持人

温颖

上海交通大学

讲者介绍

安波

新加坡南洋理工大学

安波，新加坡南洋理工大学校长讲席教授，人工智能系主任，南洋理工大学人工智能研究院联席院长，于2011年在美国麻省大学Amherst分校获计算机科学博士学位。主要研究领域包括人工智能、多智能体系统、算法博弈论、强化学习、及优化。有150余篇论文发表在人工智能领域的国际顶级会议AAMAS, IJCAI, AAAI, ICLR, NeurIPS, ICML, AISTATS, ICAPS, KDD, UAI, EC, WWW以及著名学术期刊JAAMAS和AIJ。曾获2010 IFAAMAS杰出博士论文奖、2011年美国海岸警卫队的卓越运营奖、2012 AAMAS最佳应用论文奖、2016年IAAI创新应用论文奖，2020 DAI最佳论文奖，2012年美国运筹学和管理学研究协会(INFORMS)Daniel H. Wagner杰出运筹学应用奖， 2018年南洋青年研究奖、以及2022年南洋研究奖等荣誉。受邀在2017年IJCAI上做Early Career Spotlight talk。他曾获得2017年微软合作AI挑战赛的冠军。并曾入选2018年度IEEE Intelligent Systems的AI’s 10 to Watch。他是AIJ、JAAMAS、IEEE Intelligent Systems、ACM TIST 和ACM TAAS的副主编及JAIR编委会成员。担任过AAMAS’20的程序委员会主席和AAMAS’23会议主席。当选为国际智能体及多智能体系统协会理事会成员、AAAI高级会员及ACM杰出科学家。他将担任IJCAI’27的程序委员会主席。

报告主题：用于通用计算机控制的AI Agent框架Cradle

随着大模型的发展，越来越多的智能体（AI Agents）研究关注计算机控制，包括浏览网页、操作智能手机、玩游戏等。然而，已有研究依赖软件内部API获取输入，并输出预先定义好的动作，无法真正像人类一样通过眼、脑、手的配合操控计算机。要构建能完成计算机上一切任务的通用智能体，必须使用最通用和最标准的输入输出与计算机进行交互。但是通用性带来了很多操作上的难度并成为构建通用计算机控制智能体（GCC Agents）的挑战。Cradle是迄今为止第一个既能玩多种商业游戏又能操作各种软件应用的AI框架。在这个全新的通用计算机控制框架加持下，AI Agent无需训练便能像人一样直接控制键盘鼠标，不依赖任何内部API，实现任意开闭源软件交互。Cradle的论文、项目、代码均已开源。

高宸

清华大学

高宸，清华大学信息国研中心助理研究员，于清华大学电子系获学士学位和博士学位，主要从事人工智能、数据挖掘等方面的科研工作，在WWW、KDD、SIGIR等会议期刊共发表CCF-A类论文50余篇，谷歌学术引用3500余次，曾获得ACL 2024杰出论文奖、清华大学优秀博士学位论文奖、中国计算机学会优秀博士论文奖提名等荣誉，入选2024 Stanford/Elsevier全球前2%科学家榜单。

报告主题：面向城市具身智能的仿真环境与大模型智能体

城市是一个典型的动态开放环境，不同于其他环境，城市环境同时兼具物理要素和社会要素，城市环境中的具身智能体能力可以分为基础感知推理决策能力、第一视角环境交互的物理具身能力、第一视角与其他智能体乃至真人交互的社会具身能力等多个层次。另一方面，城市环境所需的具身智能能力与大模型表现出的外部环境感知、个性推理思考、类人行动决策能力等契合。本次报告，将围绕城市环境中的具身智能体，介绍面向城市具身智能的仿真环境与大模型智能体的研究进展。

余金城

清华大学

余金城，清华大学电子系博士后。2021年于清华大学电子系取得工学博士学位，主要研究方向是计算和通信资源受限条件下的多机协同智能系统。包括领域专用硬件加速器设计、多机协同系统与算法研究、支持协同系统任务的云机器人平台和云测试场研究。在ICRA、DAC等会议和期刊上发表论文18篇。获清华大学水木学者称号。

报告主题：面向智能无人系统的软硬件跨层次优化技术

近年来，以自动驾驶、智慧物流为代表的智能无人平台的快速发展，引领了人工智能由单纯的感知智能或决策智能向“感知-决策-控制一体化”（感决控一体）智能转变。并且，伴随单个智能体能力得到提高，多智能体之间的有机合作成为可能。利用多个协同的感决控一体平台构建多机协同系统，可以提升环境的感知范围和动作能力。然而多机协同系统面临通信、感知、数据、计算等资源受限的挑战，需要面向平台中的通信与组网、计算与存储、定位与导航、感知与探测、规划与控制等多个层面进行基础理论和关键技术研究。目前多机协同系统的研究处于起步阶段，面临缺少基础设施和评价指标、缺少稳定场景和任务场地、缺少无人系统集成标准等挑战，无法针对协同智能任务进行系统层面的快速部署、快速验证和快速测试。针对以上挑战，团队构建了面向协同智能的无人平台开发系统，在基础设施层面，设计了云机器人和云测试场中间件，将测试场地、基础仪器设施、智能机器人本体进行虚拟化共享，支持硬件平台的远程时分复用。并基于上述平台，开展了通信受限下的多机环境探索、全向无人机集群自主避障、无人机飞行速度建模验证等研究。

石野

上海科技大学

石野博士毕业于澳大利亚悉尼科技大学，后在悉尼科技大学做博士后。于2021年1月加入上海科技大学信息科学与技术学院担任助理教授、研究员、博士生导师。曾入选上海市海外高层次人才计划，上海市扬帆计划，主持国家自然科学基金，还曾获得国家优秀留学生奖学金，IEEE ICCSCE 最佳论文奖，悉尼科技大学高水平论文奖金，国家奖学金等等。石野博士长期担任国际知名期刊和会议评审。

报告主题：扩散与优化模型驱动的具身智能生成与决策

扩散与优化模型驱动的具身智能生成与决策，本次报告将介绍我们在该方向上做得一些深度学习基础理论与算法应用。1）融合球面高斯约束的条件扩散方法：揭示了在使用基于损失函数引导条件扩散在采样时会出现流形偏移现象，通过优化有效地限制扩散过程处于中间数据流形内，并推导出该优化问题的解析解，可以即插即用无需训练，修改几行代码显著提高条件生成性能。适应于包括图像补全、超分辨率、图像去噪、文生图等各种条件生成任务。该方法目前还成功应用于多种手物交互生成和机器人扩散策略操控任务中。2）基于扩散模型的在线强化学习新范式：扩散模型因其强大的表达能力和多模态性而在强化学习领域中引起了广泛关注，但是现有的研究主要集中在离线强化学习领域，由于缺乏样本标签，扩散模型的训练目标无法用于在线强化学习中。我们提出了基于Q加权变分策略优化的在线强化学习算法，引入了等价强化学习策略目标的Q加权变分损失，并设计了用于扩散模型的熵正则化项，提高了扩散策略的探索能力和样本效率。3）融合优化模型到神经网络协同训练方法：将人类知识建模为带约束的优化问题，并作为神经网络结构中优化层，有助增强神经网络的可解释性和鲁棒性，我们提出交替微分训练新方法，能大幅提升优化层的训练速度，并理论推导出了交替微分的截断误差上界。在优化层基础上，提出了首个能解决复杂硬约束的连续控制任务的安全强化学习算法，确保约束得到满足。

7、智能体的价值对齐与安全鲁棒

主持人

张倬胜

上海交通大学

讲者介绍

李鹏

清华大学

课件下载视频回放
李鹏，清华大学智能产业研究院副研究员/副教授，主要研究兴趣包括自然语言处理、预训练语言模型、大模型智能体、跨模态信息处理等，在人工智能重要国际会议与期刊发表论文90余篇，曾获ACL 2023杰出论文奖，曾在多个国际上深具影响力的榜单上超过Google Research、OpenAI等团队获得第一名，主持科技创新2030重大项目课题、国家自然科学基金面上等科技项目，曾任ACL、EMNLP、NAACL等重要国际会议领域主席等。研究成果在百度、腾讯微信等千万级日活产品中获得应用并取得显著成效，获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖。

报告主题：智能体-人类-环境统一对齐原则初探

大模型作为颠覆性创新技术，其下一阶段的关键议题在于解决开放域问题。近期的研究和实践表明，以大模型为基础的智能体（大模型智能体）是迈向这一目标的核心技术路径，具有广阔的研究与应用前景。本报告将分析大模型智能体在开放域中所面临的主要挑战，阐述智能体-环境-用户的统一对齐原则，并结合实际案例介绍相关探索成果，展望未来发展方向。

桂韬

复旦大学

课件下载视频回放
桂韬，复旦大学自然语言处理实验室青年副研究员、硕士生导师。研究领域为预训练模型、类人对齐和工具学习。在高水平国际学术期刊和会议上发表了50余篇论文，主持国家自然科学基金、计算机学会、人工智能学会多个人才项目。曾获钱伟长中文信息处理科学技术奖一等奖、COLING2018最佳论文提名奖、NLPCC2019杰出论文奖、CIPS优博奖、ACM优博奖，入选第七届“中国科协青年人才托举工程”、上海市启明星计划、世界人工智能大会云帆奖“璀璨明星”称号。

报告主题：大模型能力对齐

几十年来，人类一直在寻求创造接近或超越人类智力的人工智能（AI），智能体被誉为实现这一目标的一条有希望的道路。大语言模型（LLM）越来越被视为通用人工智能（AGI）发展的潜在催化剂，激发了创建多功能智能体的希望。本次报告将介绍基于大模型的智能体的综合框架，讨论确保这些智能体符合人类能力和价值观的策略，并提供对此类智能体未来发展的见解。

潘玲

香港科技大学

潘玲，香港科技大学（HKUST）电子与计算机工程系和计算机科学与工程系客座助理教授。曾在蒙特利尔学习算法研究所（MILA）担任博士后研究员，师从图灵奖得主Yoshua Bengio教授，她于获得清华大学交叉信息研究院（IIIS）的博士学位，以及中山大学计算机科学与工程学院的工学学士学位。她的研究主要集中在发展生成流网络（GFlowNets；Bengio等人，2021年）、强化学习和多智能体系统的算法基础和实际应用。她专注于开发鲁棒、高效和实用的深度强化学习算法。她是斯坦福大学和牛津大学的访问学生，曾获得2020年微软亚洲研究博士奖学金。

报告主题： Towards Robust, Efficient and Practical Decision Making: From Reward-Maximizing Deep Reinforcement Learning to Reward-Matching GFlowNets

Recent years have witnessed the great success of RL with deep feature representations in many challenging tasks, including LLMs, computer games, robotics, and so on. Yet, solely focusing on the optimal solution based on a reward proxy and learning the reward-maximizing policy is not enough. Diversity of the generated states is desirable in a wide range of important practical scenarios such as dialogue systems, drug discovery, recommender systems, etc. For example, in typical RLHF scenarios, the proxy reward function can be uncertain and imperfect itself (compared to the gold reward model). Therefore, it is not sufficient to only search for the solution that maximizes the return. Instead, it is desired that we sample many high-reward candidates, which can be achieved by sampling them proportionally to the reward of each terminal state. The Generative Flow Network (GFlowNet) is a probabilistic generative model proposed by Yoshua Bengio in 2021 where an agent learns a stochastic policy for object generation, such that the probability of generating an object is proportional to a given reward function, i.e., by learning a reward-matching policy. Its effectiveness has been shown in discovering high-quality and diverse solutions in LLM alignment, molecule generation, etc. The talk concerns my recent research works about how we tackle three important challenges in such decision-making systems. Firstly, how can we ensure a robust learning behavior and value estimation of the agent? Secondly, how can we improve its learning efficiency? Thirdly, how to successfully apply them in important practical applications such as computational sustainability problems and combinatorial optimization?

陈露

上海交通大学

课件下载视频回放
陈露于2020年10月加入上海交通大学计算机科学与工程系，担任助理研究教授。他于2020年6月获得上海交通大学博士学位，博士论文被授予上海交通大学优秀博士学位论文。他的研究兴趣包括对话系统、问答和自然语言处理。他的研究目标是构建可进化和通用的会话代理，它可以在许多领域与人类进行对话，并通过各种信号提高其性能。

报告主题：大模型驱动的端侧智能体

以 ChatGPT 为代表的大语言模型通过使用超大规模模型参数和海量数据进行训练，涌现出很强的上下文学习能力和思维链推理能力，并与外部环境和工具进行交互，形成大模型智能体，在手机、PC、智能汽车等端侧设备上取得了较为广泛的应用。本报告将以手机智能体为例，从模型、系统、评测基准等多个方面介绍我们在大模型驱动的端侧智能体方面的工作。

8、计算经济学

主持人

沈蔚然

中国人民大学

讲者介绍

朱胜豪

对外经济贸易大学

课件下载视频回放
朱胜豪，对外经济贸易大学国际经济贸易学院教授、博士生导师，纽约大学经济学博士纽约大学经济学博士。CCF计算经济学专业组执委。在Econometrica, Journal of Economic Theory, International Economic Review等国际一流经济学期刊上发表数篇论文。学术成果在Google Scholar上被国际同行引用900多次。朱胜豪教授的主要研究领域是宏观经济和收入分配。他的研究结合动态宏观经济学异质性模型和家庭微观大数据，利用计算技术解决微观主体决策的激励相容问题。目前主要研究方向是通过人工智能和异质性代理人模型来设计经济政策。

报告主题：大规模经济中的最优税制设计

异质性主体动态宏观经济学模型涉及复杂的动态规划和数值模拟。我们把异质性模型放入抽象的无穷维分布空间中，财富分布作为描述经济系统的状态变量。经济系统的跨期转移关系被非线性Fokker-Planck方程描述。我们研究了带有加总冲击宏观经济中的税制设计。以测度流方程为约束条件，我们使用无穷维状态空间随机动态规划技术，对Krusell-Smith经济中的最优税制进行了刻画。数值模拟过程发现深度学习和强化学习是求解复杂宏观模型的有用工具。

赵登吉

上海科技大学

课件下载视频回放
赵登吉于2017年以tenure-track助理教授／博导／研究员加入上科大信息学院，并于2023年晋升为常任副教授。他是上科大信息学院机器人中心主任，CCF人工智能与模式识别专委与计算经济学专业组执委，CCF多智能体系统学组秘书长，CCF YOCSEF上海副主席，CCF/IEEE高级会员。他于2012年获澳大利亚西悉尼大学和法国图卢兹大学计算机双博士学位，于2009年获德国德雷斯顿工业大学和西班牙马德里理工双理学硕士学位，并于2006年取得了澳门科技大学计算机一等荣誉学士学位。加入上科大之前，他作为博士后先后师从亚洲首位美国人工智能协会会士(AAAI Fellow) Makoto Yokoo教授，和英国计算机领域首位皇家教授(Regius Professor)、现任拉夫堡大学校长Nick Jennings教授。赵登吉的主要研究是算法博弈论、多智能体系统和AI Agents，特别是社交网络上的博弈。他开创并推动了基于社交网络的机制设计新研究，即如何激励现有的市场参与者通过他们的社交关系邀请新的参与者。对于这一新挑战，他的团队在拍卖、合作博弈和匹配等场景做出了多项开创性贡献。他还在AAMAS 2021独立发表了一篇Blue Sky论文，以建立相关研究的议程，并受邀在 IJCAI 2022上发表Early Career Spotlight演讲。他的研究也获得了包括AAMAS 2024在内的四各国际顶会的最佳论文奖。赵登吉在2022年被推选成为国际多智能体系统基金会董事会成员（IFAAMAS Board of Directors），成为董事会自2002年成立以来来自中国区的首位代表。他也是IFAAMAS旗下旗舰期刊JAAMAS的副主编。他作为程序主席参与组织了多次国际会议，包括AAMAS，IJCAI和WINE。他同时也获得了多项荣誉，包括2022年上海市优秀教学成果一等奖，2022年上海市一流本科课程，2017年度上海市青年东方学者，上科大信息学院最佳科研服务奖和最佳教学奖，以及上科大书院优秀导师。

报告主题： Incentives for Early Arrival in Cooperative Games

We study cooperative games where players join sequentially, and the value generated by those who have joined at any point must be irrevocably divided among these players. We introduce two desiderata for the value division mechanism: that the players should have incentives to join as early as possible, and that the division should be considered fair. For the latter, we require that each player’s expected share in the mechanism should equal her Shapley value if the players’ arrival order is uniformly at random. When the value generation function is submodular, allocating the marginal value to the player satisfies these properties. This is no longer true for more general functions. Our main technical contribution is a complete characterization of 0-1 value games for which desired mechanisms exist. We show that a natural mechanism, Rewarding First Critical Player (RFC), is complete, in that a 0-1 value function admits a mechanism with the properties above if and only if RFC satisfies them; we analytically characterize all such value functions. Moreover, we give an algorithm that decomposes, in an online fashion, any value function into 0-1 value functions, on each of which RFC can be run. In this way, we design an extension of RFC for general monotone games, and the properties are proved to be maintained.

李博

香港理工大学

课件下载视频回放
李博，现任香港理工大学计算机系助理教授。曾在牛津大学和德克萨斯大学奥斯汀分校担任博士后研究员。分别于石溪大学获得计算机科学博士学位，在中国海洋大学获得应用数学学士学位。他的研究兴趣广泛，包括算法、人工智能和博弈论等。

报告主题： MMS Allocation of Indivisible Chores with Subadditive Valuations and the Fair Surveillance Assignment Problem

We study the maximin share (MMS) fair allocation of m indivisible chores to n agents who have costs for completing the assigned chores. It is known that exact MMS fairness cannot be guaranteed, and so far the best-known approximation for additive cost functions is 13/11 by Huang and Segal-Halevi [EC, 2023]; however, beyond additivity, very little is known. In this work, we first prove that no algorithm can ensure better than min{𝑛,log 𝑚/loglog 𝑚}-approximation if the cost functions are submodular. This result also shows a sharp contrast with the allocation of goods where constant approximations exist as shown by Barman and Krishnamurthy [TEAC, 2020] and Ghodsi et al. [AIJ, 2022]. We then prove that for subadditive costs, there always exists an allocation that is min{𝑛,⌈log 𝑚]}-approximation, and thus the approximation ratio is asymptotically tight. Due to the hardness result for general subadditive costs, we turn to study specific subadditive costs, e.g., vertex cover, which is called the fair surveillance assignment problem, and more. For these settings, we show that constant approximate allocations exist.

李闽溟

香港城市大学

课件下载视频回放
李闽溟，现任香港城市大学计算机科学系教授。分别于2006年和2002年在清华大学计算机科学与技术系获得博士学位和学士学位，研究兴趣包括算法博弈论、组合优化以及调度问题的算法设计与分析。

报告主题： Fairness in Facility Location Games

We consider the fairness perspective of facility location games where agents report their information while the mechanism needs to output a facility location that is fair and strategyproof. Various recent works will be discussed along the fairness perspective.

9、具身智能体与机器人

主持人

讲者介绍

蒲志强

中国科学院自动化研究所

蒲志强，中国科学院自动化所复杂系统认知与决策重点实验室研究员，博士生导师，飞行器智能技术团队PI。长期从事群体智能决策、足球AI等研究。获国家优青项目支持，获吴文俊人工智能科学技术奖自然科学二等奖等科技奖励，获北京市“科技新星”、中国科学院青促会、中国指挥与控制学会“青年才俊奖”等人才称号。获2023全国集群智能技术挑战赛第1名、2021全国空中博弈大赛第1名、2020第二届全国多智能体对抗博弈挑战赛异构组第1名等奖项。近几年主持科技部“新一代人工智能”重大项目课题、国家自然科学基金、中科院战略先导专项课题等项目10余项。发表国际期刊/会议论文100余篇，入选ESI高被引论文、F-5000论文、高PCSI论文等榜单，授权发明专利40余项。

报告主题：大模型与群体智能决策

朱秋国

浙江大学

朱秋国，浙江大学控制科学与工程学院 & 浙江大学工程师学院，副教授，博士生导师。担任第28届国际机器人竞赛IDC Robocon执行主席，西湖区十六届人大代表。主要从事仿人机器人、四足机器人、以及机器智能等研究，负责仿人机器人“悟空”和四足机器人“绝影”的研制工作。作为课题负责人，承担国家重点研发项目、国家自然科学基金等项目，发表学术论文40余篇，授权发明专利40余项，授权国际发明专利3项，获国家级教学成果二等奖、浙江省科技奖一等奖、浙江省教学成果奖一等奖。

报告主题：人形/四足机器人感控一体强化学习技术研究

报告主要介绍人形/四足机器人技术与产业的发展背景、趋势与技术挑战，分析了腿足机器人不同时间的主要特点，以及当前的主要技术挑战。报告重点介绍了基于端到端强化学习算法下的人形机器人和四足机器人在感知与控制的最新研究进展和未来的发展趋势。

白辰甲

中国电信人工智能研究院

课件下载
白辰甲，博士，现为中国电信人工智能研究院研究员，博士毕业于哈尔滨工业大学，曾在加拿大多伦多大学联合培养。研究方向包括深度强化学习、决策大模型、具身智能等。在包括AI Journal, TPAMI, NeurIPS, ICML, ICLR的高水平学术会议和期刊上发表论文二十余篇，出版《强化学习：前沿算法与应用》专著一部。主持国家自然科学基金青年项目，入选上海市青年科技英才扬帆计划，并担任多个国际顶级会议和期刊的程序委员会委员和审稿人。

报告主题：可泛化强化学习和具身应用

强化学习是智能体策略学习的重要途径。然而，强化学习策略依据特定任务的奖励函数，在不同任务中难以进行快速适应。如何学习通用策略并使其在下游任务中快速泛化是一项重要的挑战。此外，在强化学习的具身应用中，机器人需将仿真环境中学习的策略迁移到真实环境中，如何在特权信息缺失和环境动态变化中进行具身策略迁移是现实的挑战。在大模型快速发展的背景下，视觉基础模型和大语言模型将有望进一步提升策略对具身环境的理解能力和泛化能力。本报告将结合最新研究进展从三个方面进行讨论，包括技能学习和技能泛化，跨域度量和仿真-真实泛化，基础模型驱动的策略泛化等。

潘为

曼彻斯特大学

课件下载视频回放
潘为博士现任英国曼彻斯特大学计算机科学系机器学习副教授。他同时也是曼彻斯特大学人工智能基础中心和机器人与人工智能中心的成员。此前，潘博士曾在荷兰代尔夫特理工大学认知机器人系担任机器人动力学助理教授，并共同领导代尔夫特神经形态人工智能实验室。他还曾在中国大疆创新科技有限公司担任项目负责人。潘博士现任多个期刊和会议的领域主席或（高级）副主编，包括IEEE Robotics and Automation Letters（曾获杰出副主编奖）、ACM Transactions on Probabilistic Machine Learning、CoRL、L4DC、ICRA和IROS等。他分别在哈尔滨工业大学、中国科学技术大学和英国帝国理工学院获得学位。

报告主题：基于机器学习的无人机智能控制

本报告介绍基于机器学习的无人机自主决策与智能控制研究最新进展。我们的研究聚焦单机控制和多机协同两大领域，探讨了六个关键科学问题：基于强化学习的安全性和稳定性控制、利用扩散模型进行动力学建模、面向边缘计算的在线动力学模型学习、空中机械臂自适应控制、基于多智能体合作理论的无人机围捕，以及超大规模无人机集群的分布式学习预测控制。通过在不同四旋翼无人机平台验证，我们的研究成果为智能系统控制领域提供了新的思路和方法。

10、智能体跨学科交叉

主持人

崔颖

香港科技大学（广州）

讲者介绍

杨旸

香港科技大学（广州）

视频回放
杨旸现任香港科技大学（广州）协理副校长、物联网学域教授、特斯联科技集团物联网首席科学家、港科广-特斯联“数字世界”联合研究中心主任。他的研究领域包括5G/6G移动通信系统、智能物联网、多层次算力网络、开放无线测试验证平台等，已申请了120多项科技发明专利，发表了300多篇学术论文，出版了六部中英文专著。他牵头的“宽带无线传感网”科研团队获选科技部创新人才推进计划“重点领域创新团队”，协助规划了南水北调中线干线工程的全线物联网监控与管理系统，总长度为1432公里。目前，杨旸牵头承担了国家重点研发计划重点专项项目《面向大湾区智慧城市群的5G泛在物联基础设施建设及示范》。

报告主题：在AI时代激励每个学生幸福成长

在互联网时代，跨领域的知识获取和跨地区的信息传递非常便捷高效，使得在线学习模式越来越受欢迎。进入AI时代，我们对于“学习什么知识和技能、怎样赢得持久竞争力、如何增进身心健康和幸福感”有了更高的期盼，本报告将分享和讨论我们最新的思考和建议。

江斌

香港科技大学（广州）

课件下载视频回放
江斌博士现任香港科技大学（广州）社会枢纽城市治理与设计学域教授，信息枢纽计算机媒体与艺术学域兼职教授，以及宜居城市实验室主任。自2007年起，他创立并领导国际地图制图协会（ICA）地理空间分析与建模委员会，并于2023年创立ICA国家测绘机构智能化转型委员会，担任主席。此外，江教授在2009至2014年间曾任《Computers, Environment, and Urban Systems》期刊欧洲区副主编，现为《Computational Urban Science》和《International Journal of Geographical Information Science》等多个国际期刊的副主编和编委。江博士的职业生涯跨越多个国际学术机构，包括柏林自由大学、伦敦大学学院、香港理工大学、瑞典皇家工学院及瑞典耶夫勒大学。他亦受邀担任北京城市实验室荣誉主任、国际生物都市主义协会科学顾问、意大利构建美硕士项目欧洲区顾问，以及奥地利维也纳大学和意大利萨萨里大学的客座教授。在学术研究方面，江博士专注于地理信息学和城市信息学，提出多个受复杂科学启发的新概念、新方法和新工具。他的研究重点包括城市活力结构的演化理论、针对时空大数据的分析方法，以及可持续城市规划与设计工具的开发，旨在推动宜居城市的建设和发展。

报告主题：智能体辅助艺术与设计创造

Beautimeter（美度计）是一个利用生成预训练转换器 (GPT) 技术开发的新工具，旨在进行自我镜像测试 (MOST) 来评估建筑和城市之美。MOST基于克里斯托弗·亚历山大的中心理论，该理论认为所有环境在某种程度上都有其内在的生命感，并促使个体评估特定空间是否反映了其内在的自我感。Beautimeter集成了GPT的高级自然语言处理功能，使得可以对建筑和城市之美进行广泛且细致的分析。通过ChatGPT，Beautimeter帮助用户实施MOST，并解析结果，生成对建筑和城市空间美感及一致性的见解。这种方法不仅自动化了MOST，还扩展了其规模，创造了理解建筑与人类体验之间关系的新方式。我们进行了一系列案例研究，通过评估多种建筑和城市环境，揭示了人们对美的感知的相关性和模式。研究结果表明，通过利用GPT 技术，Beautimeter可以成为建筑师、城市规划师和设计师的有力工具，帮助他们创建能与人产生深刻共鸣的空间。本文探讨了这种技术在建筑和城市设计中的应用，并强调了其在增强设计流程和评估建筑环境方面的潜力。

陈天骄

中国移动研究院

陈天骄，博士，现任中国移动研究院6G网络智慧内生项目经理，从事6G网络与AI融合研究工作。以课题负责人和项目骨干身份主研参与国家重点研发计划4项、国家自然基金2项，担任多项国际学术专刊编辑和专题会主席、全球网络AI交流平台6GANA秘书。申请专利十余项，录用SCI、EI等论文二十余篇，获得国际会议论文奖项3项，牵头CCSA研究项目1项。获中国通信学会2023年未来网络领先科技成果、全球6G技术大会“6G星辰”青年学者等多项奖项。

报告主题： 6G：从连接泛在到智慧泛在

当前AI已成为新一轮产业升级的核心驱动力，车联网、XR和移动机器人等场景都需要泛在智能。当前“外挂式AI”存在效率低、通用性差、可扩展性不足等问题，难以满足网络内外高实时差异化的AI服务需求。为此，6G将构建一套内生于网络架构的高效率、高性能AI服务供应系统，以异构硬件云化作为底座，实现资源的池化、虚拟化和动态调度，以端到端服务化为基因，实现个性化和定制化的按需服务，以通、算、数、智资源协同调度为引擎，为用户提供高实时、高性能AI服务，以数字孪生作为保障，解决AI泛化性差、试错成本高的问题。

张延林

香港科技大学（广州）

视频回放
张延林，香港科技大学（广州）数据科学与分析学域助理教授。他于加拿大麦吉尔大学获得博士学位，香港城市大学获得本科学位。主要研究基于深度学习和多组学数据的基因组及三维基因组数据分析，从而深入理解基因表达与调控。在Nature Communications、Cell、Cell Reports以及ISMB等期刊和会议上发表多篇论文。他目前的研究兴趣包括机器学习在基因调控与染色质结构中的应用，以及大语言模型在生物信息学中的辅助作用。

报告主题：深度学习及大语言模型在基因组和生物数据分析中的应用

深度学习近年来在多个领域取得了显著突破，生物信息学也不例外。然而，当前广为人知的研究仍主要集中在蛋白质结构预测（如AlphaFold）和药物发现等领域。相比之下，基因组数据分析方向虽然数据量更为庞大、任务更为复杂，却未能得到同等深度的研究和应用。其主要挑战包括基因组数据的多样性和复杂性，缺乏完善的数据库以支持深度学习模型的开发，以及基因组相关任务定义的不明确性。在本报告中，我们将介绍我们在基因组与三维基因组数据挖掘中的最新进展，探讨如何克服这些挑战。此外，还将展示如何基于ChatGPT等大语言模型开发智能体来辅助生物数据处理与交互式分析，从而推动生物数据分析的智能化和自动化。

Frank Witlox

根特大学

Frank Witlox（比利时安特卫普）获得埃因霍温科技大学（荷兰）城市规划博士学位。此外，他还拥有安特卫普大学的应用经济学硕士学位和海事科学硕士学位。目前，他担任根特大学地理系的系主任并担任经济地理学高级正教授。除了根特之外，他还担任爱沙尼亚塔尔图大学的客座教授，领导国际移动实验室。自2017年4月起，他担任中国南京航空航天大学客座教授/高级外国专家，现为特聘教授。他的主要研究重点是旅行行为分析和建模，以及公共和私营公司的位置分析。他就这些主题广泛发表了 330 多篇论文，被公认为 2021 年和 2023 年社会科学领域高度被引学者。此外，他是《欧洲交通研究评论》现任主编和《欧洲交通研究评论》的创始联合主编，以及城市交通杂志社长。他拥有塔尔图和敖德萨的两个大学的荣誉博士学位，是欧洲科学院 (MAE) 院士，也是社会科学院 (FAcSS) 院士。 2024 年 8 月，英国皇家地理学会交通地理研究小组与英国地理学家协会授予Frank教授 2024 年艾伦·海伊(Alan Hay)奖，以表彰他“对交通地理的重大贡献”。

报告主题：转变路径：人类旅行行为演变背后的理论

了解人类出行行为的变化是有效智慧城市规划的关键。本讲座重点介绍有关诠释旅行模式转变的理论框架，例如理性选择理论、行为经济学和习惯形成。它探讨了这些模型如何解释因技术、环境问题和社会经济变化等产生的影响。通过研究个人如何调整他们的出行决策（模式、频率和距离），我们可以深入了解流动性的动态变化。该讲座强调需要将这些理论整合到可持续城市规划的适应性规划中。

11、智能运筹优化

主持人

张一帆

中国科学院自动化研究所

讲者介绍

严骏驰

上海交通大学

课件下载视频回放
严骏驰，上海交通大学电子信息与电气工程学院计算机科学与工程系副教授。科技部2030新一代人工智能青年项目负责人（组合优化机器学习求解）、教育部AI资源建设首席专家（深度学习）。曾任IBM中国研究院首席研究员。研究方向为机器学习，及在运筹优化、量子计算等领域的交叉。发表CCF-A类第一/通讯作者论文百篇，谷歌学术引用超万次。任ICML、NeurIPS、CVPR等领域主席、Pattern Recognition期刊编委。中国计算机学会优博/杰出会员。

报告主题：离散优化问题的人工智能方法

以图论与组合为代表的离散优化问题一直是应用数学和计算机科学的重要内容，也是人工智能，特别是符号主义、推理证明等方向的基础之一。本报告将介绍讲者近年来在离散优化领域，结合机器学习的一些探索与应用，以及一些思考。包括问题的表征、学习与求解。相关工作也得到了科技部、基金委重大项目的支持。

王长军

课件下载视频回放
中国科学院数学与系统科学研究院

王长军，中科院数学与系统科学研究院优秀青年副研究员。2015年10月至2021年3月在北京工业大学工作。研究方向为算法博弈论与组合优化的理论及应用。2018年10月依托中国运筹学会入选中国科协青年托举人才工程。青托项目期间，在运筹学及相关领域的顶级期刊和会议OR、MOR、POM、AAMAS上发表论文四篇；主持一项国家自然科学基金面上项目，参与一项国家自然科学基金重大项目、一项科技部重大研发计划重点专项项目；多次受邀在国际、国内学术会议做邀请报告；当选中国运筹学会数学规划分会青年理事，中国运筹学会博弈论分会理事、副秘书长等。

报告主题： Atomic Dynamic Flow Games: Adaptive vs. Nonadaptive Agents

We propose a game model for selfish routing of atomic agents, who compete for use of a network to travel from their origins to a common destination as fast as possible. We follow a frequently used rule that the latency an agent experiences on each edge is a constant transit time plus a variable waiting time in a queue. A key feature that differentiates our model from related ones is an edge-based tie-breaking rule for prioritizing agents in queueing when they reach an edge at the same time. We study both nonadaptive agents (each choosing a one-off origin-destination path simultaneously at the very beginning) and adaptive ones (each making an online decision at every nonterminal vertex they reach as to which next edge to take). On the one hand, we constructively prove that a (pure) Nash equilibrium (NE) always exists for nonadaptive agents, and show that every NE is weakly Pareto optimal and globally {first-in-first-out}. We present efficient algorithms for finding an NE and best responses of nonadaptive agents. On the other hand, we are among the first to consider adaptive atomic agents, for which we show that a subgame perfect equilibrium (SPE) always exists, and that each NE outcome for nonadaptive agents is an SPE outcome for adaptive agents, but not vice versa.

范长俊

国防科技大学

课件下载视频回放
范长俊，现任国防科技大学系统工程学院副教授，硕士生导师，美国加州大学洛杉矶分校联合培养博士，湖湘青年英才，国自科创新群体核心成员（6人），中国指挥与控制学会大模型与决策智能专委会总干事。主要研究方向包括智能规划与决策、图学习、运筹优化与复杂网络。以第一及通讯作者在Nature Machine Intelligence、Nature Communications、IEEE T-PAMI、AAAI等高质量期刊和会议上发表学术论文30余篇，以负责人或核心骨干身份参与10余项国家和军队重大项目。曾获世界人工智能大会青年优秀论文奖、吴文俊人工智能科技进步一等奖、中国指挥与控制学会科技进步一等奖、CICC优博奖和国防科技大学青年创新一等奖。

报告主题：数智驱动的图上组合优化问题学习型求解技术

图上的组合优化问题在现实中的网络分析、控制与决策等问题上应用广泛，但大部分图上的组合优化问题都是NP-hard的，传统方法在求解的时效性、规模性和通用性等方面的不足日益凸显。随着以图网络、强化学习为代表的人工智能技术兴起，这类问题有了新的求解思路。本报告首先介绍学习型组合优化问题求解的现状和优势，然后介绍团队设计的数智驱动的新型求解框架，及在此框架下的几个具体问题的求解，最后介绍该框架的开源软件实现。

王孟昌

阿里巴巴达摩院

课件下载视频回放
王孟昌，阿里巴巴达摩院决策智能实验室高级算法专家，致力于运筹优化与AI技术研究及其在能源、交通、制造等领域的应用。

报告主题： MindOpt优化求解技术与应用进展

介绍阿里达摩院通用优化求解器MindOpt中优化求解技术的最新进展，以及典型复杂业务场景中的应用情况。

王杰

中国科学技术大学

王杰，现任中国科学技术大学教授，博士生导师，少年班学院副院长，“脑启发智能感知与认知”教育部重点实验室副主任，国家创新人才计划青年特聘专家，国家优青，IEEE Senior Member，CCF杰出会员，曾任美国密歇根大学研究助理教授。王杰教授长期从事人工智能、机器学习等相关领域的研究，主要研究方向包括图机器学习、AI4Science（如AI4EDA、AI4OR等）、大模型等。在机器学习国际顶级期刊及会议（如IEEE TPAMI、JMLR、NeurIPS、ICML 和 ICLR 等）发表文章近百篇。曾获 SIGKDD 2014 Best Student Paper Award，代表性工作进入由美国科学院院士撰写的统计稀疏学习教材。担任IEEE TPAMI编委，以及NeurIP、ICML、SIGKDD等CCF-A类人工智能国际顶级会议领域主席或（资深）程序委员20余次。

报告主题：工业决策智能：从启发式走向大模型

人工智能与机器学习技术被广泛应用于优化和增强各种工业场景中决策过程的质量与效率。随着相关技术的迅猛发展，工业决策智能正从传统的启发式方法转变为基于深度学习的方法，并迅速向基于大模型的方法演进。大模型能够整合丰富的人类先验与深厚的领域知识，通过合理的建模方式，有望应对大规模且动态变化的工业数据与决策环境。本报告将重点探讨在芯片设计、运筹优化等工业领域中，决策智能从启发式方法向大模型方法的演变过程、面临的挑战，以及我们在相关方向的前沿探索。

卓汉逵

中山大学

课件下载
卓汉逵，中山大学数据与计算机科学学院副教授，博士生导师，AAAI Senior Member, ICAPS 2021 Conference Chair, ICAPS Council Member, 广东省杰出青年基金，广东省特支计划青年拔尖人才。

报告主题：如何让大语言模型协助经典智能规划

决策智能创业分享会

主持人

汪军

伦敦大学学院

讲者介绍

刘元

真格基金

刘元于2014年加入真格基金，投资了Momenta、Monica.im、氪信、Amiro、新世相、拉面说等项目。在加入真格基金前，刘元曾任职于Greenspring Associates，负责母基金投资及中后期投资。刘元拥有美国华盛顿与李大学（Washington and Lee University）的会计与商业管理学士学位。

报告主题：当科学家成为创业者：创业路上的挑战与机遇

介绍真格基金及在AI领域的投资布局，通过展示全球独角兽企业与创始人的相关数据、分享真格基金投资的科学家创业案例，探讨科学家创业的机遇与挑战，更强调取得成功的关键因素，并提供融资前的准备与建议。

周卉章

上海尖晶投资有限公司

周卉章，浙江大学会计学学士（竺可桢学院荣誉毕业生）、美国伊利诺伊大学会计学硕士。现任上海尖晶投资有限公司管理合伙人。浙江大学上海校友会竺可桢学院分会理事会理事、湖北省青年企业家协会成员。国家工信部首批数据合规交易师（高级）和数据资产评估计价咨询师（高级），并纳入工业和信息化人才数据库。多年深耕数据智能科技领域投资创业一线，擅于深入挖掘要素价值赋能产业升级，围绕数智基础设施建设、数智化转型应用和数据要素价值发挥三个方向投资和孵化十多家数据智能赛道公司，涉及人工智能、双碳、医疗健康、工业制造、能源、农业、消费零售、文创等多个领域。对于数据智能商业模式研究、数智技术赋能产业高质量发展、数智时代企业战略规划与管理发展、区域产业数智化转型落地有着深刻的理解和丰富的资本运作经验。同时在数字经济相关理论探索上具备前瞻性研究成果，作为核心编委参与《2023中国数据资产化发展趋势白皮书》撰写，为数据要素市场政策制定者、监管机构和市场参与主体提供了数据资产化的全景。

报告主题：从数据出发，开启AI无限可能

人工智能大发展的时代背景下如何从数据要素价值挖掘和落地产业赋能的视角中找准创业定位

王竞凡

上海穹彻智能科技有限公司

王竞凡，斯坦福大学博士毕业，人工智能高级工程师，任上海穹彻智能科技有限公司副总裁，中国自动化学会机器人智能专业委员会委员，浙江大学专业学位研究生校聘行业导师，香港中文大学(深圳)校外导师，上海闵行职业技术学院校外导师，曾获上海市海外高层次人才，福布斯中国2020年度30岁以下精英，世界经济论坛全球杰出青年等荣誉。

报告主题：穹彻智能的具身智能实践

穹彻智能是一家专注于开发和应用具身智能技术的前沿科技公司，聚焦“以力为中心”的具身智能大模型和相关基础设施的研发，为不同行业的客户提供创新的通用机器人智能解决方案和服务，以解决现实世界中的复杂问题。2024年9月穹彻智能宣布完成累计数亿元人民币的天使轮和Pre-A轮两轮融资。

张攀

墨力云智能

张攀博士墨力云智能联合创始人（香港和杭州两地企业，由国家人工智能创新平台孵化) 香港政协青年联会会员香港理工大学博士，师从校长滕锦光院士美国西北大学硕士浙江大学竺可桢学校荣誉学士

报告主题：以GenAI技术赋能城市建设与运维：我的创业探索

在城市化快速发展的背景下，传统建设与运维模式面临诸多挑战，包括资源浪费、效率低下和环境影响等。本报告将分享我的创业故事，探讨如何利用GenAI与多智能体技术重塑城市建设的未来。

Linda Jiang

Neurowave

Linda Jiang，Neurowave 的联合创始人兼 CEO。拥有多年创业和全球化公司管理经验。前友盟合伙人，创建了友盟移动开发者网络和生态。曾联合创立了全球首家专注于AI和机器人投资孵化平台Comet Labs。近年来， Linda 专注于Vocie Conversational AI领域，参与了个性化文本转语音的研究，并担任英国AI 初创公司 Wluper 的 COO，负责产品和商业化。Linda 拥有UCL认知与决策学硕士学位。

报告主题：对话即商业：Gen AI x Conversation AI的创业机遇与挑战

随着大语言模型的的飞速发展，生成式 AI（Gen AI）与对话式 AI （Conversational AI) 的结合正在重塑商业模式，开启前所未有的创业机遇。 Linda 将分享在全球各个行业的应用场景以及探讨创业者在这一领域面临的核心挑战，如用户信任、数据隐私和商业化路径。

夏雨

小叶子音乐科技

全国钢琴比赛第亚军，北京市奥数冠军，清华大学软件学院本硕，小叶子音乐科技CTO，小叶子智能陪练APP创始人

报告主题： AI music for all mankind

可控音乐生成大模型，可生成标准五线谱，方便阅读和二次编辑，专业音乐人的音乐创作助手

李凌波

无限思维科技有限公司

无限思维科技有限公司创始人。李凌波作为人工智能和软件工程领域的领导者，拥有跨越学术界、企业界和公共部门的广泛经验。作为英国知名人工智能初创企业TurinTech.AI的前首席运营官和主要联合创始人，李凌波在获得欧洲顶级风险投资基金超过1700万英镑的融资发挥了关键作用，并从英国科技创新署Innovate UK、英国伦敦市政府和欧洲创新委员会的Horizon 2020计划等政府实体赢得了约350万英镑的资助。李凌波的商业成就包括从微软、谷歌、亚马逊和英伟达等科技巨头处获得了超过200万美元的云服务和咨询信用，并通过与英国第三大金融集团劳埃德银行集团、万事达卡和德国Exasol等主要企业的销售协议，创造了超过100万英镑的年经常性收入。在学术领域，李凌波目前担任华威大学的荣誉副教授职位，并在南京大学和中山大学担任硕士生导师，并自2017年起在武汉大学软件工程国家重点实验室担任副教授，以及在多所国际知名高校担任硕士生导师及博士生导师:例如牛津大学，伦敦大学学院，帝国理工学院，伦敦国王学院，英国华威大学，英国格拉斯哥大学，英国利兹大学等。在过去十年中，李凌波指导了200多名硕士生，并指导了5名博士候选人。

报告主题：智能软件维护的未来：利用大模型驱动提升软件质量与效率

在当今快速变化的软件开发环境中，维护和优化代码质量的需求变得尤为紧迫。无限思维科技有限公司开发的智能大模型软件质量维护平台CoOps，通过结合大语言模型（LLM）和搜索优化技术，提供了一种革命性的解决方案。该平台不仅能够高效生成高质量的代码，还能通过自动化流程减少维护时间和成本，显著提升开发效率。通过实际案例，我们将展示CoOps如何帮助企业应对遗留系统更新、技术债务增加等挑战，推动软件维护向人工超智能（ASI）的演进。

董和瀚

戈壁合伙人

董和瀚先生于2016年加入戈壁合伙人的香港区分部，目前专注于发展香港及华南大湾区的初创企业生态系统，以及拓展东南亚和中东市场。董先生专注并投资全球超过70间包括人工智能、半导体、新材料、工业4.0/智能制造、跨境电商物流、互联网服务SaaS、产业互联网、Web 3.0及金融科技等领域之初创企业。加入戈壁之前，董先生曾在金融科技和企业大数据解决方案的初创企业中积累丰富培育高科技行业的经验，领导了两间企业的产品规划与管理、商业发展及营运、后台算法技术搭建与实行、用户体验设计，以及企业融资等事宜。董先生毕业于香港中文大学，持有计算机工程及工商管理（金融工程）双学士学位。

报告主题：创投如何赋能人工智能

RLChina 2024 WORKSHOP

导航

联系方式