RLChina 2023 WORKSHOP

1、智能体学习理论
讲者介绍
王立威
北京大学
课件下载 视频回放
王立威,北京大学教授。主要研究方向是机器学习理论。他在顶级会议和期刊上发表了 200 多篇论文。他在图神经网络方面的研究获得了 ICLR 2023 年度优秀论文奖。他是 TPAMI 的副主编,曾多次担任 NeurIPS、ICML 和 ICLR 的领域主席。
报告主题: A Theory of Chain of Thought
Recent studies have discovered that Chain-of-Thought prompting (CoT) can dramatically improve the performance of Large Language Models (LLMs), particularly when dealing with complex tasks involving mathematics or reasoning. Despite the enormous empirical success, the underlying mechanisms behind CoT and how it unlocks the potential of LLMs remain elusive. In this talk, I will take a first step towards theoretically answering these questions. Specifically, I will examine the expressivity of LLMs with CoT in solving fundamental mathematical and decision-making problems. I will start by giving an impossibility result showing that bounded-depth Transformers are unable to directly produce correct answers for basic arithmetic/equation tasks unless the model size grows super-polynomially with respect to the input length. In contrast, autoregressive Transformers of constant size suffice to solve both tasks by generating CoT derivations using a commonly-used math language format. Moreover, I will show LLMs with CoT are capable of solving a general class of decision-making problems known as Dynamic Programming, thus justifying its power in tackling complex real-world tasks.
袁洋
清华大学
课件下载 视频回放
袁洋,清华大学交叉信息研究院助理教授。博士毕业于美国康奈尔大学,师从Robert Kleinberg教授。曾在MIT大数据基础研究院(MIFODS)担任一年博士后研究员, 本科毕业于北京大学。研究方向是智能医疗、AI基础理论、应用范畴论。
报告主题: On the Power of Foundation Models
With infinitely many high-quality data points, infinite computational power, an infinitely large foundation model with a perfect training algorithm and guaranteed zero generalization error on the pretext task, can the model be used for everything? This question cannot be answered by the existing theory of representation, optimization or generalization, because the issues they mainly investigate are assumed to be nonexistent here. In this talk, we show that category theory provides powerful machinery to answer this question. We have proved three results. The first one limits the power of prompt-based learning, saying that the model can solve a downstream task with prompts if and only if the task is representable. The second one says fine tuning does not have this limit, as a foundation model with the minimum required power (up to symmetry) can theoretically solve downstream tasks for the category defined by pretext task, with fine tuning and enough resources. Our final result can be seen as a new type of generalization theorem, showing that the foundation model can generate unseen objects from the target category (e.g., images) using the structural information from the source category (e.g., texts). As the simplest case of our framework, we will demonstrate that SimCLR is doing spectral clustering on similarity graphs, which exploits RHKS as a special version of Yoneda lemma.
汪军
伦敦大学学院
课件下载
汪军,伦敦大学学院(UCL)计算机系教授,上海数字大脑科技研究院联合创始人,阿兰·图灵研究所 Turing Fellow。主要研究强化学习、多智能体、决策理论和AI agent等。曾举办RLChina 2023 ChatGPT 和大模型春季课程。
报告主题: On Physical foundations of AI Agents
Rasul Tutunov
英国华为技术研发中心
课件下载
Rasul Tutunov,英国华为技术研发中心强化学习团队高级研究员。他的主要研究兴趣是统计机器学习和人工智能领域,专注于贝叶斯优化、非凸优化及其在AI agent中的应用。他还对分布式算法及其在“大数据”问题中的应用感兴趣。
报告主题: Why Can Large Language Models Generate Correct Chain-of-Thoughts
This talk delves into the capabilities of large language models (LLMs), specifically focusing on advancing the theoretical comprehension of chain-of-thought prompting. We investigate how LLMs can be effectively induced to generate a coherent chain of thoughts. To achieve this, we in- troduce a two-level hierarchical graphical model tailored for natural language generation. Within this framework, we establish a compelling geomet- rical convergence rate that gauges the likelihood of an LLM-generated chain of thoughts compared to those originating from the true language. Our findings provide a theoretical justification for the ability of LLMs to produce the correct sequence of thoughts (potentially) explaining performance gains in tasks demanding reasoning skills.
Laurent Lafforgue
巴黎华为研究中心
课件下载
Laurent Lafforgue,法国数学家,主要研究代数几何和调和分析。2002年获得菲尔兹奖,以表彰他对"朗兰兹计划 "的贡献,该计划通过代数几何将伽罗瓦理论和自动表征理论联系起来。近几年来,他的主要兴趣逐渐转移到Grothendieck拓扑理论。2021年,他加入巴黎华为研究中心。
报告主题: Reality and Its Representations: A Mathematical Model
One way wonder what is “reality”, how to grasp elements of reality and how to describe them. The purpose of the talk will be to propose mathematical models of “reality” and of possible descriptions of elements of reality, based on the theory of Grothendieck toposes and its representations. This model suggests principles for designing mathematical languages adapted to describe some aspects of the world, such as for instance images.
Olivia Caramello
科莫因苏布里亚大学
课件下载
Olivia Caramello 毕业于都灵大学并获得数学学士学位,随后在剑桥大学特里尼蒂学院获得了数学博士学位。她的学术生涯涵盖了多个知名机构,包括剑桥大学、比萨的斯库奥拉·诺马莱超级学院、波恩的马克思·普朗克数学研究所、巴黎7大学以及高等科学研究院(IHES)。自2020年起,她担任盖尔范德主席。她还是书籍《Theories, Sites, Toposes: Relating and studying mathematical theories through topos-theoretic 'bridges'》(牛津大学出版社,2017)的作者,发表了众多学术论文,举办了一百多次国际研讨会。她曾在2017年获得教育、大学和研究部的“Rita Levi Montalcini”竞赛奖,目前担任科莫因苏布里亚大学的副教授。Caramello 以引入和发展了拓扑学“桥梁”的统一理论而闻名,该理论利用了给定拓扑的不同表示来建立数学不同领域之间的联系。令人瞩目的是,在2022年3月,她创立了Grothendieck研究所,这是一家根据意大利法律设立的基金会,旨在发展Grothendieck式数学,特别是以统一和跨学科的方式发展拓扑学理论。
报告主题: Syntactic Learning Via Topos Theory
We shall propose a research programme aimed at integrating syntactic structures into artificial learning systems. This, besides greatly reducing the amount of ‘brute-force’ computations, should lead to a significantly higher resilience, robustness and adaptability of the resulting systems. The unifying role of toposes as ‘bridges’ between geometric presentations and logical descriptions of data will be crucial in connection with this programme.
Jean-Claude Belfiore
华为数学与算法科学实验室
课件下载 视频回放
Jean-Claude Belfiore 毕业于巴黎高等电信学院,在巴黎电信获得博士学位,皮埃尔和玛丽·居里大学(UPMC)的博士生导师资格认证。2015年之前,他一直在巴黎电信公司通信与电子系担任全职教授。2015年,他加入华为数学与算法科学实验室,担任通信科学部主任,并自2021年起担任巴黎先进无线技术实验室主任。Jean-Claude Belfiore 利用数论工具在无线系统的调制和编码(尤其是时空编码)方面做出了开创性的贡献。他还是Wi-Max标准中著名的Golden Code的共同发明人之一。他在国际顶级会议和期刊上发表论文200多篇,曾担任IEEE的副主编。
报告主题: Semantic Information and the Difficulty of Learning: Paving the Future of AI
Compared to humans and animals, “intelligent” machines are very slow to learn, require a large amount of data, do not understand what they are doing, make stupid mistakes, do not reason have no common sense. Is there a way to overcome them? All these issues are related to the absence of semantics in nowadays machine learning. Is it possible, for a new architecture of machine to learn as quickly as a baby? With very few data? To “understand”? To reason? We aim at giving some answers to these questions by developing a theoretical point of view and applying it to experiments to show the effectiveness of our theory. This theory is based on a mathematical notion proposed by Alexander Grothendieck in the 60’s, the notion of topos. I will present how this notion helped us to develop a new theory of semantic information, how a generalized notion of equivariance just corresponds, in the right topos, to regular functions, how it is possible to learn by concepts and approach the way a baby can learn and finally, how toposes are related to logics. All these aspects will be presented both theoretically and experimentally. 
2、智能体决策与规划
讲者介绍
吴翼
清华大学
视频回放
吴翼,清华大学交叉信息研究院助理教授, 2019 年于加州大学伯克利分校获得博士学位,曾任 OpenAI 多智能体团队研究员。2014 年本科毕业于清华大学交叉信息研究院计算机科学实验班。研究方向为深度强化学习与多智能体强化学习,代表作包括 OpenAI Hide-and-Seek Project,MADDPG 算法,Value Iteration Network 等,曾获 NeurIPS 2016 最佳论文奖。
报告主题: Diversity-Driven Reinforcment Learning
In the classical reinforcement learning (RL) formulation, reward is often the only performance metric for an algorithm. Accordingly, existing RL literature primarily focuses on developing algorithms that can achieve high rewards while rarely considering which solution is derived. However, we will show that (optimal) policies with the same reward can yield substantially different behaviors in popular RL testbeds. Moreover, many of the (optimal) behaviors can be hardly discovered by classical RL algorithms that only strive for rewards. In this talk, we present recent advances in developing diversity-driven RL algorithms, which not only optimize rewards but also aim to discover a broad spectrum of policies with visually distinct behaviors.
黄隆波
清华大学
课件下载 视频回放
黄隆波,清华大学交叉信息研究院长聘副教授,ACM杰出科学家。曾先后于麻省理工学院与加州大学伯克利分校担任访问学者,于法国贝尔实验室与香港中文大学担任访问教授,并于伯克利Simons计算理论研究院担任长期访问科学家。曾担任ACM Sigmetrics 2021大会主席,以及ITC 2022、IEEE WiOpt 2020与GameNets 2019的程序委员会主席。目前担任多个网络与人工智能国际期刊编委,包括IEEE/ACM TON,ACM ToMPECS, Elsevier PEVA以及IEEE TPAMI。曾获清华大学“良师益友”及2018年ACM SIGMETRICS青年科学家奖。
报告主题: Training a Sparse Deep Reinforcement Learning Model from Scratch
Training deep reinforcement learning (DRL) models usually requires high computation costs. Therefore, compressing DRL models possesses immense potential for training acceleration and model deployment. However, existing methods that generate small models mainly adopt the knowledge distillation-based approach by iteratively training a dense network. As a result, the training process still demands massive computing resources. Indeed, sparse training from scratch in DRL has not been well explored and is particularly challenging due to non-stationarity in bootstrap training. In this work, we propose a novel sparse DRL training framework, “the Rigged Reinforcement Learning Lottery” (RLx2), which builds upon gradient-based topology evolution and is capable of training a DRL model based entirely on sparse networks. Specifically, RLx2 introduces a novel delayed multistep TD target mechanism with a dynamic-capacity replay buffer to achieve robust value learning and efficient topology exploration in sparse models. It also reaches state-of-the-art sparse training performance in several tasks, showing 7.5×-20× model compression with less than 3% performance degradation and up to 20× and 50× FLOPs reduction for training and inference, respectively.
卓汉逵
中山大学
视频回放
卓汉逵,中山大学数据与计算机科学学院副教授,博士生导师,先进网络与计算系统研究所副所长,广东特支计划青年拔尖人才,广东省杰出青年,广州市珠江新星,吴文俊人工智能自然科学奖获得者,任国际顶级会议人工智能规划与调度会议ICAPS 2021会议主席,ICAPS理事(2021-2027),国际人工智能先进学会(AAAI)Senior Member 入选者 (2020年全球共12人入选),CCF 高级会员,CCFAI 多智能体学组常委,CAAI伦理与治理工委会委员,IJCAI 2016 demonstration track co-chair,国际人工智能会议AAAI、IJCAI、ICAPS等Senior Program Member 。主要从事人工智能基础理论算法及其交叉应用研究,主持国家-广东大数据中心重点项目课题、面上项目等纵向、横向应用项目20余项。获得国际顶级会议AAMAS 2016的最佳学生论文提名。曾获“中国服务机器人大赛”自然语言项目冠军、“中国机器人大赛暨RoboCup公开赛”家庭仿真组指令语言项目冠军。
报告主题: 人工智能的创造性:一个智能规划的视角
创造性是人类智慧区别于其他个体的关键特性之一;人工智能作为比拟人类智慧的科学技术,应具有创造性。本报告拟从智能规划的视角解释人工智能的创造性,并探讨如何基于智能规划实现人工智能的创造性,最后介绍基于智能规划实现创造性的案例。
章宗长
南京大学
课件下载 视频回放
章宗长,南京大学人工智能学院副教授、博导,计算机软件新技术全国重点实验室成员,机器学习与数据挖掘研究所(LAMDA)成员,中国计算机学会(CCF)高级会员,CCF人工智能与模式识别专委会执行委员,中国人工智能学会机器学习专委会委员。博士毕业于中国科学技术大学,曾在斯坦福大学、新加坡国立大学开展学术研究。长期从事强化学习相关领域的研究,在CCF推荐的A、B类期刊和会议发表论文50多篇,获授权的中国发明专利16项、美国发明专利2项,许可、转让给企业11项,成果用于多家著名企业的自动驾驶、仓储物流、网络安全、游戏等业务场景。正担任期刊《Intelligent Computing》编委、期刊《Frontiers of Computer Science》青年编委。共主持国家自然科学基金项目3项,正参与科技创新2030-"新一代人工智能"重大项目。
报告主题: 驾驭信息:智能决策Agent的设计及挑战
强化学习是构建智能决策Agent的基石。然而,现有强化学习算法在样本和计算上不够高效,导致它们难以在真实世界落地应用。真实世界中的观察往往包含高价值的信息,有效驾驭它们是智能决策的关键。在本报告中,我们把智能决策形式化为有界最优的终身强化学习问题,并探讨智能决策Agent的设计及三方面的挑战:针对非独立同分布数据流的在线学习、使用有限资源的高效推理及探索-利用困境,最后围绕这些挑战介绍我们近期提出的一些深度强化学习算法。
蔡庆芃
快手科技
课件下载 视频回放
蔡庆芃,清华大学交叉信息研究院博士,现任快手高级算法专家,负责强化学习推荐组,同时担任CCF 多智能体系统学组委员。他的研究兴趣集中在深度强化学习与推荐系统上,目前在机器学习与人工智能、数据挖掘国际顶级会议上发表论文20余篇,并担任(高级)审稿人。
报告主题: 短视频推荐强化学习算法
本次报告我将讨论强化学习在短视频推荐系统应用的动机、挑战以及解决方案。首先我将介绍短视频推荐系统强化学习在线搜参算法,然后我将介绍应对短视频推荐落地强化学习三个方面挑战的3篇工作:多目标优化、大规模动作空间、留存优化。
3、智能体大模型与基于语言大模型的智能体
讲者介绍
卢暾
复旦大学
视频回放
卢暾,复旦大学计算机学院教授、博导,上海市数据科学重点实验室副主任,复旦大学社会计算研究中心主任,美国卡耐基梅隆大学(CMU)访问学者。现为中国计算机学会杰出会员、协同计算专委秘书长,上海市计算机学会协同信息服务专委会副主任。研究兴趣包括社会与协同计算、人机协同与交互、群智协同与系统、数字社会智能治理等。主持多项国家自然科学基金项目、科技部重点研发计划课题、863课题和上海市项目。成果发表在CSCW、CHI、UbiComp、NeurIPS、WWW、SIGIR、IEEE TKDE、ACM TOIS等权威会议和期刊上。常规担任CSCW、CHI等的AC,担任多个国内外学术会议的PC/TPC Chair以及多个国内外学术期刊的AE和GE。
报告主题: 以人为中心的推荐系统模拟——大模型驱动的Agent建模方法
以人为中心的推荐系统(Human-Centered Recommender Systems)强调分析和理解用户与推荐系统的特质以及两者间的复杂关联关系,聚焦解释和评估推荐系统对用户期望、价值与目标的影响、塑形与风险。大模型驱动的Agent建模具有系统演化过程可知、自由社会实验可控等特点,给以人为中心的推荐系统模拟提供了独特视角和全新思路,是深度探究伴随推荐系统涌现的曝光偏差、过滤气泡、回声壁、信息茧房等核心问题的利器。本报告将分享研究团队在大模型驱动的Agent建模推荐系统的最新工作,围绕以人为中心的推荐系统设计理念,所提出的基于大模型的微观模拟框架RHA!,从个体层面细粒度模拟了Recommender- Assistant- Human之间复杂互动关系与协同交互过程;所提出的预训练大模型驱动的宏观模拟工具SimuLine,从群体层面全生命周期模拟了Creator- Recommender- Consumer生态系统的复杂作用机理与动态演化过程。这些创新工作展示了其在未来用户体验评估、算法治理调控和网络监管实施等方面应用的巨大潜力。
张宁豫
浙江大学
课件下载 视频回放
张宁豫,博士,浙江大学副教授,博士生导师。研究方向包括知识图谱、自然语言处理等,在知识图谱和自然语言处理领域已发表多篇顶级会议和期刊文章,包括ACL、EMNLP、NAACL、NeurIPS、ICLR等,Google学术引用三千余次,五篇论文入选Paper Digest高影响力论文,获浙江省科技进步二等奖,国际会议IJCKG最佳论文/提名2次,CCKS最佳论文奖1次;担任ACL、EMNLP领域主席、ARR Action Editor、IJCAI 高级程序委员、ACM Transactions on Asian and Low-Resource Language Information Processing Associate Editor及NeurIPS、ICLR、ICML等会议程序委员会委员。
报告主题: 大模型智能体的自主规划学习
随着预训练技术的不断发展,借助思维链等提示学习技术,大模型展现出了令人惊讶的推理能力,引起了学术界和工业界学者的广泛关注。然而,思维链方法在处理复杂推理、规划等任务时仍遇到了不少挑战。为了解决这些问题,研究人员开始探索基于大模型的自主智能体系统。本次报告将从基于提示学习的大模型思维链技术出发,介绍大模型智能体的自主规划学习技术,包含自主规划推理中的共性原理、基于执行反馈的工具学习新方法,以及相关的开源工具框架。
高宸
清华大学
高宸,清华大学信息国家研究中心助理研究员,于2016年和2021年在清华大学电子系获学士学位和博士学位,博士后出站后留校任教。主要从事数据挖掘、信息检索等方面的科研工作,近五年在KDD、SIGIR、WWW、NeurIPS等国际会议期刊上发表CCF-A类论文40余篇。获信息检索领域旗舰会议SIGIR 2020最佳短论文提名奖、清华大学优秀博士学位论文奖、CCF优博提名奖、百度学术人工智能华人新星奖,负责国家自然科学基金面上项目、国家重点研发计划子课题等研究项目。
报告主题: 基于大模型智能体的社会模拟
社会模拟是社会科学研究的基础工具,大模型智能体为社会模拟注入了新活力。大模型凭借其类人感知能力与决策过程,一方面能够对社会个体实现准确模拟,另一方面能够通过多智能体交互对真实社会宏观态势进行仿真复现。本次报告将围绕社会模拟,介绍基于大模型智能体的社交模拟系统S3与经济模拟系统两部分工作。在社交模拟方面,针对给定信息环境下对用户产生的交互行为、情绪变化、观点变化,基于大模型智能体实现对个体行为和认知状态的准确模拟;同时在宏观层面上,模拟出的信息传播趋势和情绪观点状态宏观变化趋势符合真实数据规律。在经济模拟方面,所构建的基于大模型智能体的经济模拟系统,与传统宏观经济模拟方法相比,展现出更强的稳定性和真实性,初步探索了宏观经济模拟的新型模拟范式。
林衍凯
中国人民大学
课件下载 视频回放
林衍凯,中国人民大学准聘助理教授,于2014年和2019年获得清华大学学士和博士学位。博士毕业后曾在腾讯微信担任高级研究员,于2022年加入中国人民大学。其主要研究方向为大模型自主智能体。曾在ACL、EMNLP、NAACL、AAAI、IJCAI、NeurIPS等自然语言处理和人工智能顶级国际会议上发表论文50余篇,Google Scholar统计被引用次数达到10000余次。其知识指导的自然语言处理研究成果获评教育部自然科学一等奖、世界互联网领先成果。曾主导构建大模型工具学习工具包BMTools(GitHub星标数超过2700),大模型工具学习数据集与模型ToolLLM(GitHub星标数超过3400),大模型自主智能体系统XAgent(GitHub星标数超过4000)。曾担任EMNLP、ACL ARR等会议的领域主席。
报告主题: 大模型工具学习
近年来,大模型在自然语言处理、计算机视觉等诸多领域展现出惊人的应用价值。大模型通过在大规模无监督数据上进行预训练,在复杂交互环境中展现出了非凡的理解、推理与决策能力。然而,现有大模型在实际应用中的功能却主要局限于对用户输入的文本反馈,缺乏对环境的深入理解和主动交互能力、深层次的任务执行能力。本报告的内容为大模型工具学习,介绍大模型工具学习智能体如何理解任务,对给定任务目标进行分解,并调用各种工具来完成任务,包括其统一框架、主要挑战和未来方向。
梁一韬
北京大学
课件下载 视频回放
梁一韬博士,北京大学人工智能研究院助理教授,博导,博雅青年学者,2022年国家人才计划青年项目(海外)获得者。2021年6月于加利福尼亚大学洛杉矶分校获得博士学位。从事神经符号融合的研究,一直致力研究如何将知识注入机器学习中以提高其性能和通用性。曾获得过强化学习顶级会议AAMAS2016最佳论文提名、在ICML19举办的Reinforcement Learning for Real Life Workshop最佳论文及在NeurIPS 2017举办的Learning from Limited Labeled Data(LLD)Workshop次佳论文,在ICML2023举办的TEACH Workshop最佳论文。在学术服务方面,常年担任多个顶级期刊和会议的领域主席(资深审稿人)。
报告主题: 在开放环境下对于通用代理(智能体)的尝试
随着大型语言模型的出现,关于是否会出现通用代理(generalist agent)的辩论重新兴起。这可能是一个过于雄心勃勃的目标。然而,为了取得任何进展,我们需要一个合适的测试环境和严格的评估协议。根据我们以往的研究结果,我们注意到以前用于测试智能体的环境大多被设计成只有一个具体的任务和目标(有时由一个特定奖励函数来指定)。这极大地限制了我们评估是否在构建通用代理方面取得了重大进展的能力。在这次分享中,我们将介绍我们组以及其他一些相关的知名研究实验室的各种在使用开放世界环境(例如Minecraft)来开放通用代理远行的努力。我们将深入探讨为什么现在是时候瞄准开放世界环境;这些环境的特点是什么;它们面临的独特挑战是什么,以及为什么解决这些挑战对于通用代理是不可或缺的;最后,我们将看一下这一领域的最新研究成果并对未来做一些展望。
4、大语言模型辅助的智能体决策与推理
讲者介绍
王文冠
浙江大学
课件下载 视频回放
王文冠,浙江大学计算机学院百人计划研究员,博士生导师,国家优秀青年基金 (海外)获得者。2022∼2023年, 任悉尼科技大学(University of Technology Sydney)Lecturer(讲师/助理教授)。2020∼2022 年, 任苏黎世联邦理工学院 (ETH Zurich)博后研究。2018∼2019年,先后任起源人工智能研究院 (IIAI)研究员和资深研究员。2016∼2018年在加州大学洛杉矶分校 (UCLA)访学。2018年博士毕业于北京理工大学。主要研究方向为计算机视觉和人工智能。在顶级期刊和会议 (如TPAMI、IJCV、ICLR、ICML、NeurIPS、CVPR、ICCV、ECCV、AAAI、Siggraph Asia)发表学术论文80多篇。谷歌学术引用15000余次,H指数64。曾获Intel中国英才奖(2023年),澳大利亚研究理事会 (Australian Research Council,ARC)优秀青年基金 (Discovery Early Career Researcher Award,DECRA) (2022年)、斯坦福大学“全球前2%顶尖科学家”(2022~2023年),Elsevier高被引中国学者 (2020∼2022年),世界人工智能大会优秀青年论文奖 (2020年)、中国人工智能学会优博奖 (2019年),ACM中国优博奖 (2018年)。
报告主题: 知识和大模型驱动的具身智能
以大模型为代表的最新人工智能技术成为引领世界新一代产业变革的核心驱动力,将极大推动智能机器的社会化应用,也为强调身心一体的具身智能研究带来了广阔的发展空间。然而,当前的具身智能体,虽然建立在神经网络强大的表达和学习能力基础之上,却面临着缺乏知识推理、难以与人沟通交互、无法解释决策机理等瓶颈。在人工智能领域新变革与大模型时代的背景之下,本次讲座围绕知识与大模型驱动的全新具身智能范式,介绍本团队近期开展的研究工作,介绍如何将人类知识以及大模型与具身智能体结合,提高具身智能体在推理、规划、决策等方面的智能水平,以及与人类沟通、协作的能力。
赵鑫
中国人民大学
赵鑫,中国人民大学高瓴人工智能学院教授。2014年7月于北京大学获得博士学位,随后进入中国人民大学工作至今。研究领域为信息检索与自然语言处理,共计发表论文100余篇,谷歌学术引用1万余次,曾主导研发了伯乐(推荐系统库RecBole)、妙笔(文本生成库TextBox)等开源工具,组织编写了大语言模型综述论文《A Survey of Large Language Models》(预印版文章)。荣获2020年吴文俊人工智能优秀青年奖、ECIR 2021时间检验奖(Test of Time Award)、RecSys 2022最佳学生论文提名(Best student paper runner-up)、CIKM 2022最佳资源论文提名(Best resource paper runnerup)等,入选中国科协青年人才托举工程、北京智源青年科学家、CCF-IEEE CS青年科学家。
报告主题: 大模型技术的研发与思考
最近,以ChatGPT为代表的大语言模型受到了社会的广泛关注。本次报告将围绕大语言模型研发过程中的关键技术展开介绍,将从预训练、指令微调、轻量化部署等方面展开讨论,分析现有技术特点以及局限之处,并且给出报告人对于这些方面的相关思考与实践经验。
连德富
中国科学技术大学
课件下载 视频回放
连德富,国家优青,中国科学技术大学特任教授,博士生导师。他曾任电子科技大学副教授、悉尼科技大学访问学者,曾入选微软亚洲研究院铸星计划。他的主要研究方向包括大规模分类、深度学习、因果机器学习等,研发了RecStudio开源推荐系统和FuxiTS时序预测和检测系统,主持了国家自然科学基金优秀青年科学基金、面上项目,科技部科技创新2030重大项目课题,国防科技173重点项目等。他在KDD、NeurIPS、TPAMI、TKDE等CCF-A类会议和期刊发表论文90余篇。他曾获得教育部自然科学一等奖、CCF自然科学一等奖、安徽省教学成果一等奖、四川省教学成果二等奖、APWeb 2016最佳学生论文、WWW 2021最佳论文候选、WISE 2022最佳论文奖等。
报告主题: 大语言模型驱动的交互式推荐智能体
随着ChatGPT在人工智能领域崭露头角,大语言模型展现出卓越的人机交互和指令执行能力,为多个领域带来了新的机遇。然而,在推荐系统中,大语言模型的推荐准确度和用户满意度存在一些挑战。一方面,由于大语言模型的训练数据缺乏特定领域的物品信息和用户互动数据,它对领域内的模式和知识的理解相对不足,导致了较低的推荐精准度。另一方面,对于新加入系统的物品,大语言模型的更新和适应成本也难以承受。为了解决这些问题,我们提出了一种融合大语言模型与推荐领域工具的方法,构建了一种交互式的推荐智能体。其中,我们利用大语言模型的卓越指令执行、人机交互和工具使用能力,将其作为智能体的核心,通过在对话中理解和解析用户意图,制定工具使用计划,并结合个性化能力更强、准确度更高的推荐工具为用户提供推荐列表,从而综合提升了交互体验和推荐准确度。
郑岩
天津大学
视频回放
郑岩,天津大学副教授,天津大学深度强化学习实验室联合负责人,专注基于强化学习的决策智能前沿理论与应用研究。在IEEE Trans & CCF A等人工智能领域的知名国际期刊和顶级国际会议上发表论文近40余篇,曾获CCF A类会议ASE 2019杰出论文奖,CCF-AI多智能体学组优秀博士论文奖,NeurIPS 2022 SMART Driving自动驾驶比赛双Track冠军、PRICAI最佳论文奖;担任中国指挥与控制学会委员、CCF-AI智能体与多智能体学组执行委员,多个 CCF A国际人工智能顶级会议的(高级)程序委员会委员。研究工作得到国家科技部科技创新2030-重大项目课题、KJW国防科技创新重点项目课题、国家自然科学基金青年项目,航天院所等多项国家和省部级科研项目的资助,研究成果在国防军事领域的多个军事仿真场景中应用落地,拥有丰富的科研项目经验。
报告主题: 大模型时代下的AGI Agent
李林静
中国科学院自动化研究所
课件下载 视频回放
李林静,工学博士,中国科学院自动化研究所研究员,硕士研究生导师。研究方向为博弈论、决策大模型、可计算一般均衡建模。2005年和2007年于哈尔滨工业大学获工学学士和硕士学位,2011年于中国科学院自动化研究所获计算机应用技术专业工学博士学位,并任助理研究员,2012年于香港城市大学访问,2014年任副研究员,2022年任研究员。现已发表期刊论文21篇,会议论文34篇,2篇论文获得国际会议最佳论文提名奖,出版学术专著1本。主持国家自然科学基金青年基金1项,联合基金重点项目子项1项,科技部国家重点研发计划课题1项,国家重点实验室青年基金1项,作为骨干成员参与了多项国家自然科学基金重点和重大项目、科技部国家重点研发计划和中国科学院重点部署项目、A类和C类科技专项。作为技术负责人参与研发的“全球媒体云”系统获得2015年第七届王选新闻科学技术奖一等奖,“面向人物立方体的大数据分析与应用研究”获得2022年军事科学技术进步奖二等奖。
报告主题: 动态存储增强的决策大模型
大语言模型具备极强的生成能力,通过思维链等技术也能完成简单的决策问题。但是设计最优提示需要经验,而且难以泛化到复杂场景。为此,我们提出了动态存储增强的决策大模型,利用记忆模块来构建动态的提示,以指导模型做出正确决策。动态存储增强的决策大模型由记忆形成和记忆强化两个模块构成。记忆形成模型将大量的人类轨迹分解为状态-动作元组并储存在记忆模块中,同时构建索引。记忆强化模型采用树探索来寻找最优决策过程,并添加其中有价值的状态-动作元组到记忆形成模块中来实现整个模型的优化。在两个交互式环境中进行的实验表明我们提出的模型优于基准模型。
5、智能体的价值对齐与安全鲁棒
讲者介绍
方蒙
利物浦大学
课件下载 视频回放
方蒙,英国利物浦大学助理教授(博导),荷兰埃因霍温理工大学访问助理教授。他的研究重点是通过语言增强智能体和智能系统,使其能够在现实世界中理解和与人类互动,包括语言理解、推理和决策能力。他的主要研究领域包括自然语言处理以及强化学习/机器学习。他在NLP和AI方向国际顶级会议和期刊上发表论文40多篇。多次获得国际会议的最佳论文和提名,他的工作曾获得图学习会议LoG-2022最佳论文奖等。
报告主题: Language Agents for Text-based Games
在游戏领域,文本游戏正在经历一场复兴,为玩家提供了独特而身临其境的游戏体验。本讨论关注如何将自然语言处理技术,尤其是语言智能体,融入文本游戏中,以使其表现得像人一样参与游戏。我们深入研究了语言智能体在知识表达、推理、决策等方面的运用,力求实现更强大的智能体。此外,我们还探讨了在游戏中应用语言智能体涉及的伦理问题,特别关注了与道德相关的潜在影响。我们讨论了缓解这些挑战以及在游戏中负责任地运用人工智能的策略。通过这些探讨,我们致力于推动游戏领域中语言智能体的发展,以提升智能体的语言理解、推理和决策能力。
石野
上海科技大学
课件下载 视频回放
石野,上海科技大学信息科学与技术学院助理教授、研究员、博士生导师。于2013年本科毕业于西北工业大学,2018年博士毕业于澳大利亚悉尼科技大学,2019年至2020年在澳大利亚悉尼科技大学做博士后。2021年1月石野博士加入上海科技大学信息科学与技术学院。石野博士研究聚焦在人工智能理论基础及其在3D视觉和智慧能源中的应用。另外石野博士长期担任国际顶级期刊评审。
报告主题: Responsible AI for Decision and Control via Implicit Networks
This talk is dedicated to exploring responsible AI methods in decision and control systems through the lens of Implicit Networks. Implicit Networks, encompassing optimization layers, NeuralODEs, and deep equilibrium models, play a pivotal role in advancing reliability, interpretability, and memory efficiency in AI applications. The talk initiates with an exploration of differentiable optimization, elucidating how this approach contributes to enhancing the reliability of decision and control systems. The subsequent portion of the tutorial concentrates on memory-efficient neural network models, specifically NeuralODEs and deep equilibrium models. Attendees will delve into these advanced architectures, comprehending how they enable the modeling of temporal dependencies while maintaining memory efficiency. In this talk, we will also present our latest contributions to the field of responsible AI for decision and control, unveiling novel techniques that push the boundaries of reliability and efficiency.
潘玲
香港科技大学
潘玲,将于2024年春季入职香港科技大学电子与计算机工程系担任助理教授。目前在MILA担任博士后研究员,由Yoshua Bengio教授指导。她于2022年从清华大学跨学科信息科学研究院(由Andrew Yao教授领导)获得博士学位,导师为黄隆波教授。她的研究主要集中在发展生成流网络(GFlowNets;Bengio等人,2021)、强化学习和多智能体系统的算法基础和实际应用上。她致力于开发稳健、高效和实用的深度强化学习算法。在博士期间,她曾访问斯坦福大学与Tengyu Ma教授合作,牛津大学与Shimon Whiteson教授合作,以及微软亚洲研究院的机器学习组与Wei Chen博士合作。她曾获得微软亚洲研究院奖学金(2020年)。
报告主题: Towards Robust, Efficient and Practical Decision Making: From Reward-Maximizing Deep Reinforcement Learning to Reward-Matching GFlowNets
Recent years have witnessed the great success of RL with deep feature representations in many challenging tasks, including computer games, robotics, smart city, and so on. Yet, solely focusing on the optimal solution based on a reward proxy and learning the reward-maximizing policy is not enough. Diversity of the generated states is desirable in a wide range of important practical scenarios such as drug discovery, recommender systems, dialogue systems, etc. For example, in molecule generation, the reward function used in in-silico simulations can be uncertain and imperfect itself (compared to the more expensive in-vivo experiments). Therefore, it is not sufficient to only search for the solution that maximizes the return. Instead, it is desired that we sample many high-reward candidates, which can be achieved by sampling them proportionally to the reward of each terminal state. The Generative Flow Network (GFlowNet) is a probabilistic framework proposed by Yoshua Bengio in 2021 where an agent learns a stochastic policy for object generation, such that the probability of generating an object is proportional to a given reward function, i.e., by learning a reward-matching policy. Its effectiveness has been shown in discovering high-quality and diverse solutions in molecule generation, biological sequence design, etc. The talk concerns my recent research works about how we tackle three important challenges in such decision-making systems. Firstly, how can we ensure a robust learning behavior and value estimation of the agent? Secondly, how can we improve its learning efficiency? Thirdly, how to successfully apply them in important practical applications such as computational sustainability problems and drug discovery?
宋研
中国科学院自动化研究所
视频回放
宋研,中国科学院自动化研究所助理工程师,参与实现多智能体强化学习算法库,参与强化学习相关方向的学术研究。研究生毕业于伦敦大学学院(UCL)计算统计和机器学习(CSML)专业。
报告主题: Evaluation of Agents
6、智能体框架、体系结构与训练系统
讲者介绍
杨海龙
华为新语言社区团队
杨海龙,华为新语言社区布道师、KOL,CangChain(苍穹)开源项目负责人。曾就职于华为编译器与编程语言实验室,新语言团队核心成员。现江南大学人工智能与模式识别技术研发中心博士。研究兴趣包括:生成式人工智能、编译器、编程语言、模糊神经网络。
报告主题: 大语言模型应用开发框架与可解释智能体
大语言模型应用开发框架是一个灵活的方法,可以根据不同应用的需求进行定制,有助于开发者更好地利用大语言模型的潜力,同时考虑到伦理、可解释性和隐私等重要因素。本次分享探讨大语言模型在应用开发领域的潜在价值和挑战,并介绍了一种旨在提高可解释性的智能体设计方法。然后介绍CangChain(苍穹)开源项目在框架智能化、类似人类推理、隐私保护等领域的探索工作。
毛航宇
商汤科技
课件下载
毛航宇,SenseTime智慧城市集团(SCG)的资深算法研究员。在此之前,曾担任华为诺亚方舟实验室的主任研究员。研究重点是将智能决策技术应用于现实世界,并且特别关注强化学习(RL)、多智能体强化学习(MARL)和大型语言模型(LLM)。曾担任顶级人工智能会议如NeurIPS、ICML、AAAI和IJCAI的(高级)程序委员会成员。此外还担任中国计算机学会-人工智能专委会-多智能体学组的执行委员会成员。
报告主题: 从 强化学习(多)智能体 到 大语言模型(多)智能体
介绍深度强化学习(DRL)、基于Transformer的强化学习(TRL)、基于大语言模型(LLM-based)的智能体和多智能体等一系列关于AI Agent的探索工作,并分享一些研究心得体会。
杨成
北京邮电大学
课件下载 视频回放
杨成,北京邮电大学副教授,长期从事数据挖掘和自然语言处理相关方向的研究,发表相关领域CCF A类论文30余篇,谷歌学术被引七千余次,相关成果获2020年教育部自然科学奖一等奖(排名第四)等省部级奖励。曾获中文信息学会优秀博士论文奖,先后入选百度发布的首届“AI华人青年学者百强” 榜单、第九届中国科协“青年人才托举工程”。
报告主题: 大语言模型智能体合作框架
大语言模型(LLMs)目前已展现出推理、规划、工具使用等诸多类人智能,可作为智能体(Agent)的大脑自动化地处理各种复杂任务。然而这些大语言模型智能体是否能够像人类一样学会沟通与分工,更快更好地进行任务协作,仍然是一个亟待探索的问题。本报告将介绍大语言模型智能体协作研究的最新进展,提出一种基于“招募-讨论-执行-反馈”模式的通用合作框架AgentVerse,并重点分析实验中发现的各类智能体合作涌现行为。
陈光耀
北京大学
陈光耀,2023年于北京大学取得博士学位,主要研究方向为开放世界学习、多智能合作学习与模型压缩,已在TPAMI、NeurIPS、ICCV等国际顶级期刊会议共发表论文十余篇,作为主要技术骨干参与编制多项人工智能模型表示与压缩技术的国际国家标准。曾获北京大学优秀博士学位论文奖、IEEE标准突出贡献奖和石青云院士优秀论文奖等。他长期担任TPAMI/IJCV/NeurlPS/ICLR/CVPR/ICCV/AAAI 等多个学术会议或期刊的 PCMember/Reviewer.
报告主题: AutoAgents: A Framework for Automatic Agent Generation
Large language models (LLMs) have enabled remarkable advances in automated task-solving with multi-agent systems. However, most existing LLM-based multi-agent approaches rely on predefined agents to handle simple tasks, limiting the adaptability of multi-agent collaboration to different scenarios. This talk will introduce AutoAgents, an innovative framework that adaptively generates and coordinates multiple specialized agents to build an AI team according to different tasks. Specifically, AutoAgents couples the relationship between tasks and roles by dynamically generating multiple required agents based on task content and planning solutions for the current task based on the generated expert agents. Experiments on various benchmarks demonstrate that AutoAgents generates more coherent and accurate solutions than the existing multi-agent methods. This underscores the significance of assigning different roles to different tasks and of team cooperation, offering new perspectives for tackling complex tasks.
7、基于大语言模型的多智能体通信,交流,协同与对抗博弈
讲者介绍
张崇洁
圣路易斯华盛顿大学
课件下载 视频回放
张崇洁是圣路易斯华盛顿大学计算机科学与工程系副教授。在此之前,他曾任清华大学交叉信息科学研究院助理教授和麻省理工学院计算机科学与人工智能实验室(CSAIL)博士后研究员。他的研究重点是深度强化学习、多代理系统和人机交互。
报告主题: Semi-unsupervised Offline Reinforcement Learning
Offline reinforcement learning has emerged as a promising framework for learning sequential policies from pre-collected datasets. It often assumes that offline datasets include rewards. In reality, reward-free data, like experiences from different tasks or from human players, is abundant and contains rich behavioral information. In this talk, we explore two questions: 1) How can we leverage reward-free data to improve the performance of offline RL algorithms in a principled way? 2) How can we effectively utilize the behavioral information in unsupervised offline data for rapid online learning? For the first question, we first investigate the theoretical benefits of utilizing reward-free data in linear Markov Decision Processes (MDPs) within a semi-supervised setting. We then present a novel, Provable Data Sharing algorithm (PDS) to utilize such reward-free data and enhance offline RL. For the second question, we propose an unsupervised approach to extract useful behaviors from offline reward-free datasets via diversified rewards and reuse them as candidate policies to facilitate the learning of new tasks. Perhaps surprisingly, we show that rewards generated from random neural networks are sufficient to extract diverse and useful behaviors, some even close to expert ones.
杨耀东
北京大学
视频回放
杨耀东,北京大学人工智能研究院助理教授(博导),伦敦国王大学客座助理教授。人社部高层次留学人才回国计划、中国科协青年托举计划获得者。科研领域包括强化学习、博弈论和多智能体系统,重点关注基于强化学习方法的智能群体博弈及群体智能涌现。他本科毕业于中国科学技术大学,并在伦敦帝国理工大学与伦敦大学学院获得硕士及博士学位,回国前他于伦敦国王大学信息学院任助理教授。他发表AI顶会论文及专利专著 60 余篇,谷歌引用两千余次。他的工作曾获机器人学习会议CoRL’20 最佳系统论文奖、多智能体顶会AAMAS’21 最具前瞻性论文奖。因在多智能体强化学习上的工作,他曾获得世界人工智能大会(WAIC 2022)云帆奖璀璨明星、ACM SIGAI China新星奖、华为英国公司最佳技术突破奖、AAAI/ACM SIGAI 优博奖参选人 (伦敦大学学院唯一)。
报告主题: 从偏好对齐到价值对齐与超对齐
大语言模型的训练离不开基于人类反馈的强化学习技术。面向下一代对齐方法,尤其是从偏好对齐到价值对齐,乃至面向超级智能体的对齐,仍有许多挑战。本讲中,我会介绍价值对齐中的难点,价值系统的刻画及挑战,以及从内外对齐算法设计中的思考,同时我会介绍在安全对齐中的一些可行方法。最后我会提出面向超对齐研究的一些思考。
张超
清华大学
张超,清华大学电子工程系助理教授,伦敦大学学院脑科学部名誉副教授,中文信息学会语音信息专委会副秘书长。清华大学计算机系本科、硕士。2017年获剑桥大学信息工程学博士学位,曾任任剑桥大学副研究员、客座研究员,京东公司顾问、语音组联合负责人,谷歌公司高级研究科学家。在语音语言处理领域发表80余篇会议和期刊论文,曾获ICASSP、Interspeech、ASRU和SLT等语音领域内旗舰级会议最佳学生论文奖。
报告主题: 认知导向的视听觉大语言模型
ChatGPT的横空出世全球范围内掀起了空前的人工智能热潮。作为一种大语言模型(Large Language Model,LLM),ChatGPT以文本输入和文本生成作为交互的主要手段,在自然语言和形式语言任务中展现了相当程度的任务通用性,但仍有许多不足。一个关键缺陷在于模型的语言认知与物理世界的多模态信息几乎无关(ChatGPT的最新更新已支持图片和语音指令输入)。可以把LLM类比为具有强语言认知能力的“大脑”,缺乏感官和身体,对物理世界的了解主要来自“想象”而非实际的“感受”。给LLM增加感知,尤其是音视频感知,既使LLM真正“能听会看”,也能提高已有音视频任务的准确性。 最近我们推出了首个认知导向的开源听觉模型SALMONN(Speech Audio Language Music Open Neural Network)。通过将LLM直接与音频和语音编码器连接起来,SALMONN实现了对语音、音频事件、音乐等各类音频输入的感知和理解。相较于仅仅支持语音输入或非语音音频输入的其他大模型,SALMONN真正“长了耳朵”,涌现出语音指令、多语言、跨模态推理等高级能力,大幅提高了模型的通用性和任务的丰富性。为让模型具有涌现能力,我们提出了一种关键的多模态LLM“激活”技术。在具有较为完整的音频感知的基础上,我们还给LLM增加了视觉编码器,给SALMONN“长了眼睛”。我们提出了一种细粒度的音视频联合表征技术,使模型能够更完整的获取时间对齐的音视频信息。综上,SALMONN能够利用LLM从海量文本中学习得到的人类知识和认知能力,实现一种认知导向的音视频感知,是一个能够“看”短视频的多模态大模型。
王露
微软亚洲研究院
王露,微软亚洲研究院研究员,专门研究强化学习、大语言模型、云智能、医疗保健、金融等相关领域。她在华东师范大学获得了博士学位,并在强化学习领域上发表了20多篇论文,包括ICML、ICLR和KDD。
报告主题: Reinforcement Learning for Cloud Intelligence
AIOps in the cloud requires safe, interpretable, and efficient decision making, especially for tasks like disk failure mitigation, vCPU oversubscription, and VM allocation. At Microsoft, we're using reinforcement learning to address these challenges on various cloud platforms. To ensure safe decision making, we propose chance constraint RL methods that maximize benefits while satisfying cost constraints. For efficient decision making, we're developing cascade RL, which quickly filters out unnecessary actions. Additionally, we're exploring logic rule learning-based decision making to improve interpretability.
8、基于大语言模型的具身智能体与机器人研究
讲者介绍
陈立
宇树科技
课件下载 视频回放
宇树科技创始合伙人陈立 毕业于上海大学精密机械系 发表论文3篇,其中SCI论文1篇,EI论文2篇。以第一发明人授权发明专利2项,并拥有数项实用新型专利 其他学术、社会兼职: 中国指挥与控制学会主任委员 CICC多域态势感知与认知专业委员会主任委员 IEEE PES变电站技术委员会(中国)主任委员 浙江理工大学机械工程研究生导师,中国移动5G联合创新中心四足机器人项目总负责人 IEEE QRC, 审稿人
报告主题: 基于RL的足式机器人控制技术
主流的传统运动控制方法,如模型预测控制(Model PredictiveControl,MPC) 和全身运动控制 (Whole-Body Contro,WBC),已在足式机器人上得到了广泛的应用。 然而,这些方法往往需要复杂的建模和繁琐的人工调参,生成的动作在自然度和灵活性上也有所欠缺,这也使得研究者们把目光转向受生物启发的学习方法,强化学习 (Reinforcement Learning,RL)就是其中最为广泛关注的方法。 下面我在以下几个点跟大家展开讲解 1. sim to real的问题:环境建模差异,感知差异,机器人模型差异,控制策略差异; 2. 目前主流方法:更好的仿真,域随机化,域适应; 3. 国内外基于RL,以宇树机器狗为载体,完成的成果; 4. 未来展望。
朱秋国
浙江大学
朱秋国,浙江大学控制科学与工程学院 & 浙江大学工程师学院,副教授,博士生导师。担任第28届国际机器人竞赛IDC Robocon执行主席,西湖区十六届人大代表。主要从事仿人机器人、四足机器人、以及机器智能等研究,负责仿人机器人“悟空”和四足机器人“绝影”的研制工作。作为课题负责人,承担国家重点研发项目、国家自然科学基金等项目,发表学术论文40余篇,授权发明专利40余项,授权国际发明专利3项,获国家级教学成果二等奖、浙江省科技奖一等奖、浙江省教学成果奖一等奖。
报告主题: 人形机器人运动控制技术研究
人形机器人是当前机器人领域研究的热点之一。人形机器人在复杂地形环境中具有优越的通过能力,可适应台阶、沟坎等不平整、不连续地形,但在行走稳定性和快速性方面仍然存在诸多挑战。本次会议报告将主要针对人形机器人运动的快速性和稳定性等问题展开,探讨基于模型运动控制和基于强化学习运动控制方面的研究工作。
许华哲
清华大学
课件下载 视频回放
许华哲博士现为清华大学交叉信息研究院助理教授,博士后就读于斯坦福大学,博士毕业于加州大学伯克利分校。其研究领域是具身人工智能(Embodied AI)的理论、算法与应用,具体研究方向包括深度强化学习、机器人学、基于感知的控制(Sensorimotor)等。其科研围绕具身人工智能的关键环节,系统性地研究了视觉深度强化学习在决策中的理论、模仿学习中的算法设计和高维视觉预测中的模型和应用,对解决具身人工智能领域中数据效率低和泛化能力弱等核心问题做出多项贡献。其发表顶级会议论文四十余篇,代表性工作曾被MIT Tech Review,Stanford HAI等媒体报道。
报告主题: 基础大模型:机器人操作的先验知识库
这次报告将探讨如何在机器人操作中将视觉基础模型(visual foundation models)和语言模型(LLMs)进行整合。我们讨论了这些模型如何增强机器人操纵,例如生成视觉目标、寻找物体对应关系(correspondence),甚至生成模拟任务。通过利用提示调整和适应技术,我们发现这些基础模型中的先验知识对简化人类设计机器人任务的各个方面非常有帮助,也进一步地提升了机器人的操作能力。
张新宇
华东师范大学
课件下载 视频回放
张新宇,华东师范大学教授,教育部软硬件协同设计研究工程中心副主任,毕业于浙江大学,曾任韩国虚拟现实研究中心研究教授, 美国北卡罗来纳大学教堂山分校计算机系研究科学家。研究方向为机器人运动规划、计算机视觉、虚拟现实、物理引擎等。在SIGGRAPH/ASIA, TVCG, TRO, VR, ICRA, iROS, SPM, JCAD论文50多篇,授权发明专利20项,软件著作10项。开源算法集成在FCL中,被ROS核心模块广泛应用。中国机器人操作系统(ROS)暑期学校的发起人,中国机器人操作系统(ROS)教育基金会的创始人,致力于推动机器人操作系统(ROS)研究,及机器人技能人才培养与产业应用。
报告主题: 智能体精细灵巧操作关键问题研究
智能体对物体灵巧操作能力是一项核心技术,其目标是使智能体能够像人类一样处理和操作各种不同形状、大小和材质的物体。为了实现精细的灵巧操作,智能体需要具备先进的机械设计和控制系统,以及高度智能化的算法和软件系统。本报告从以下几个方面探讨了智能体精细灵巧操作面临的挑战,展示了团队的研究成果。(1)手的灵巧性;(2)物体的复杂性;(3)数据收集不易、可扩展性差;(4)计算抓取稳定性定义模糊。
张希
中国科学院自动化研究所
课件下载
张希,中国科学院自动化研究所复杂系统认知与决策实验室副研究员。中国科学院大学模式识别与智能系统专业获博士学位,康奈尔大学博士后。主要从事机器学习、计算机视觉、强化学习等方面的研究。在ICLR、ICML、CVPR、KDD等顶级国际会议上发表论文近四十篇。带领团队获得NeurIPS竞赛冠军、以第一作者获得美国医学信息学会年度优秀论文奖。深度学习应用于脑神经科学的工作获得国际运动障碍协会MDS Congress蓝丝带奖,曾受邀在美国神经科学院ANN年会做专题报告。现担任NeurIPS、ICML、ICLR、KDD、AAAI等国际会议程序委员会成员或审稿人,Boehringer Ingelheim Fellowship获得者。
报告主题: 融合大语言模型的智能体学习与决策
闫维新
上海交通大学
闫维新,上海交通大学博士生导师,中国医疗器械行业协会医用机器人分会副理事长,国家机器人检测与评定中心首席专家。主要研究方向是特种、服务机器人,主要研究成果有:核酸采样双臂机器人、烹饪服务机器人、冬奥会机器人餐厅、康复养老智能护理床系统。获上海市科技进步一等奖1项、上海市科技进步三等奖1项、梦想中国全球创新大赛一等奖、深圳市高交会优秀产品奖、 2020年广东省长杯金奖、2017阿里人工智能创新全球大赛奖、复星杯全国人工智能大赛四川赛区银奖、中国国际工业博览会创新奖,发表论文70多篇,专利90多项。
报告主题: 聪明的机器人餐厅“厨师”
针对人形机器人面向公共服务与创新娱乐场景应用需求,尤其在智慧厨房典型场景下的应用,梳理场景的工作内容,剖析动作流程,量化场景需求下的感知觉、运动能力和人机交互的运动能力改变规律,提出体系化解决方案,建立针对智慧厨房的典型交互需求的落地范式。包括:相关的环境、交互、服务品类特征及相关的标准动作单元,建立动作单元和人形机器人的典型动作归纳。开展智慧厨房典型动作单元下的机械分解合成、工程实现以及控制技术研究,完成相应的人形机器人本体及底层运动控制系统。构建适用于智慧厨房典型应用的人机交互方式以及相对应的人工智能技术架构,探索人工智能智能赋能下的人形机器人在智慧厨房场景下的肢体和自然语言流畅交互的技术路线。最后开展基于多模态大模型和云端大脑驱动的人形机器人在服务娱乐领域尤其在餐饮服务方面的应用范式研究。
9、智能体创新应用
讲者介绍
张启超
中国科学院自动化研究所
张启超,中科院自动化所副研究员,硕导。长期从事强化学习与自动驾驶预测规划方向研究,现为CCF智能汽车专委会执行委员、CAAI智能驾驶专委会委员等,获得中国科学院院长优秀奖、CAAI优秀博士论文提名奖等个人奖励。先后主持国自然面上,CCF-百度松果项目,华为诺亚/美团/百度横向课题等,作为骨干参与国家重点研发计划2项、国自然重点项目 1 项、北京市科技计划项目2项等,先后在IEEE TNNLS、 IEEE TCyb、 IEEE CIM 等国际权威期刊和国际会议发表论文 40 余篇,联合举办2020 i-VISTA虚拟仿真挑战赛等,先后获得2020 DAI SMARTS智能驾驶比赛一等奖等10余项比赛获奖。
报告主题: 强化学习视角: 城市自动驾驶预测规划方法研究
近年来,模仿学习和强化学习技术受到了不同应用领域包括自动驾驶领域的广泛关注。从产业界来看,国内外许多自动驾驶公司如Waymo,Wayve,百度等均在积极探索数据闭环的学习型系统在自动驾驶领域的落地。与此同时,科研界也在这一方向进行了大量的前沿研究和探索。总体来讲,针对城市自动驾驶中的轨迹预测和规划问题,强化学习方法在落地阶段存在机遇也面临挑战。本次报告,将从强化学习视角,分享团队在自动驾驶预测规划方面的一些算法工作和研究进展。
杨宁
中国科学院自动化研究所
课件下载 视频回放
杨宁,中国科学院自动化研究所助理研究员,2020年获得北京科技大学博士学位,以及北京科技大学博士研究生优秀奖。长期致力于智能优化算法的研究,并将这些技术应用于现实世界中的各种优化问题,包括原油调度、铁路时刻表设计和无线通信资源调度等领域。发表相关领域论文10余篇,其中一篇期刊论文为高被引论文,一篇会议论文荣获IEEE 87th Vehicular Technology Conferenc最佳论文奖,主持国家自然科学青年基金、北京市自然科学青年基金以及铁路调图等横向课题。
报告主题: 智能运筹创新应用
运筹学在工业领域得到了广泛应用,涵盖了交通运输、供应链、能源、金融等多个领域。然而,许多实际的运筹优化问题具有大规模、动态复杂性高、多目标多约束等特点。在应对这些挑战时,智能运筹优化算法成为一种具有潜力的解决方案。在本报告中,将介绍智能优化算法的最新进展,并探讨其在几个经典运筹优化实际问题上的应用。
徐哲
滴滴出行
徐哲,滴滴出行首席算法工程师,现任网约车交易策略负责人、花小猪打车策略部总负责人。上海交通大学和悉尼科技大学博士,中国人工智能学会优博,曾在顶级期刊会议TPAMI、CVPR、ICCV、ECCV等发表10篇+论文。2016年加入滴滴,先后从0-1搭建强化学习分单算法体系,网约车运力调度技术&业务方向,及花小猪打车完整的交易、定价、增长策略体系。于交易市场智能化领域有丰富的理论及业务落地实践经验。
报告主题: 智能出行
鲍凡
生数科技
课件下载 视频回放
鲍凡,生数科技CTO,清华大学五年级博士生,就读于清华大学统计人工智能与学习组,导师是张钹院士、朱军教授。从事深度生成模型的研究,具体包括扩散模型、多模态生成模型等,博士期间以一作身份在A类会议ICML、NeurIPS、ICLR、CVPR上发表8篇论文。其一作论文Analytic-DPM获得世界级学术奖项ICLR2022杰出论文奖,是该会议首篇由中国大陆单位独立完成的获奖论文,并被OpenAI在DALL·E 2上采用。其提出的UniDiffuser是首个图文多模态生成大模型,用一个模型实现了文生图、图生文、图文联合生成等任务,该项目获得了广泛关注,在github上获得了1000+ star。
报告主题: 多模态生成大模型
多模态生成模型有潜力给智能体赋予理解和生成不同模态的能力。但是相比大语言模型,多模态生成模型的技术还未收敛到一个统一范式。该报告将从数据、架构、概率建模等维度,系统介绍当前多模态生成大模型的各种技术路径。
董君伊
华为云计算公司边缘云创新实验室
董君伊,华为云计算公司边缘云创新lab研究员,博士毕业于康奈尔大学,主要从事机器人仿真、合成数据生成、多机器人协同、概率图模型等相关领域的研究。
报告主题: LLM-based Domain Randomization For Synthetic Data Generation
仿真合成数据旨在解决真实数据可用率低、标注成本高的难题,对于AI模型的训练和测试至关重要。传统的域随机化技术通过改变仿真器中的参数(如光照、材质等)来增强合成数据的多样性,从而提高仿真中训练的AI模型的鲁棒性和泛化能力。然而,传统的域随机化技术通常不能反应现实世界的数据分布特性。该报告以3D家具场景的生成为例,介绍LLM使能的域随机化数据生产管线。
特别论坛:智能体与多智能体艺术的探索
讲者介绍
李澄宇
临港实验室
李澄宇,博士,博士生导师,临港实验室高级研究员,担任中国神经科学学会理事,中国电子学会智能人机交互专委会委员。国家杰出青年科学基金获得者,国家中青年科技创新领军人才,入选中科院“百人计划”。推动猕猴脑图谱规划,组织脑智中心与华大生命科学研究院、临港实验室、上海脑中心、腾讯AI实验室等单位组成攻关团队,绘制了猕猴单细胞分辨率全皮细胞分型与空间转录组图谱(Cell,2023)。应用光遗传、电生理等技术,解析了工作记忆的神经机制(Science, 2014; eLife, 2019; Neuron, 2020; NeuroImage, 2019)。与国家纳米中心方英研究员、及中科院脑智卓越创新中心赵郑拓研究员合作研发了新型脑机接口器件与系统(Science Advances, 2019; Advanced Science, 2023)。
报告主题: 行为的脑机制与类脑计算启发
生物脑与艺术
高峰
北京大学
高峰,北京大学艺术学院研究员。清华大学未来实验室博士后出站。主要研究领域为计算机与艺术交叉学科,探索人类未来生活中人工智能技术在元宇宙、艺术、教育、健康等领域的应用。多篇论文发表于国际顶级多媒体会议ACM Multimedia、IEEE会刊,相关研究成果已成功应用于中国美术家协会、雅昌集团等单位。先后获得中国电子学会科技进步一等奖、第12届中国艺术权力榜年度艺术探索奖、德国iF工业设计奖等奖项。
报告主题: 智能体辅助艺术与设计创造
在2022年的8月的科罗拉多州艺术博览会上。《太空歌剧院》摘得了全场数字艺术类别冠军。这幅作品如同一个小的锚点,定格在历史的画布上。引发了我们对于AGI(通用人工智能)的无限想象。新的内容介质的出现必定会颠覆现有的内容生产方式,释放更为磅礴的内容生产力。而Agent(智能体)在辅助艺术与设计创造中的应用,也将颠覆现有的实践路径与思维方式。为我们勾勒出一条走向AGI的全新道路。
王磊
中国人民大学
课件下载 视频回放
王磊,中国人民大学高瓴人工智能学院博士在读,导师是陈旭教授。研究兴趣包括推荐系统、因果推断、基于大语言模型的智能体等。
报告主题: When Large Language Model based Agent Meets User Behavior Analysis: A Novel User Simulation Paradigm
在信息时代,推荐系统成为了众多互联网应用的关键组成部分,它对人类的日常生活和商业价值产生了深远影响。推荐系统的研究通常基于真实数据或模拟环境,其中真实数据虽精准但成本高,应用场景有限;而模拟环境成本低,适用性广,但准确度不足。大语言模型的发展为用户模拟提供了新的机会。本报告将聚焦在RecAgent,一个由大语言模型智能体驱动的推荐系统沙盒模拟环境,探讨大模型时代用户行为模拟和分析的新范式。
金宣法
中国科学院自动化研究所
金宣法,中国科学院自动化研究所群体决策智能团队在读博士生,导师为张海峰副研究员和汪军教授。研究兴趣包括多智能体强化学习、LLM-Agent、非完全信息博弈等。



张弛
中央美术学院



报告主题: LLM-Agent在博弈对话游戏中的应用与探索
自 ChatGPT 诞生以来,其在自然对话和任务决策中的出色表现使大语言模型(Large Language Model, LLM)得到了社会的广泛关注。而以《狼人杀》为代表的多人博弈对话游戏,凭借其极大的随机性和游戏性,在国内外广受欢迎。在这类多人博弈对话游戏中,伪装、欺骗、推理等技巧的合理使用十分重要。虽然 LLM 已被成功应用到一些多人合作游戏中,但其在多人博弈对话游戏中的表现仍有待确定。本次报告将从博弈对话游戏的背景出发,介绍欺骗定义与语义检测方法,并探讨我们当前在《桃源村》和《一夜狼人杀》游戏中 LLM-Agent 的初步应用与艺术探索。
祖伟钦
上海科技大学
祖伟钦,海科技大学创意与艺术学院研究生,研究方向:社交网络中基于大语言模型的人机交互导航。致力于提高导航系统在复杂社交环境的适应性和交互性,旨在使小车在人群中更智能,实现精准灵活导航和个性化用户体验。



陈思杉
上海科技大学
上海科技大学创意与艺术学院声音工程师。伦敦大学金史密斯学院,电影制作-声音设计硕士。从事导演,声音设计工作。作品获伦敦Dreamers of Dreams最佳艺术短片,并入围香港亚洲投资会,中国FIRST青年影展,日本奈良国际电影节,柏林青年华语电影节等。
报告主题: 大语言模型驱动下的社交导航系统及其艺术可能性
本报告旨在分享一种基于语言模型驱动的交互式多模态多任务机器人导航框架(LLM-driven interactive multimodal multitask robot navigation framework,LIM2N)。该框架通过整合语言和手绘输入,并采用强化学习Agent进行多任务处理,从而在模拟和现实世界环境中提高用户互动和效率。此外,我们还将探讨LIM2N下的导航系统在其艺术领域的可能性,从创意或反思的角度为机器艺术的讨论提供开放的思路。