RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

前沿追踪 | 强化学习月度十大动态 2108 期:数据高效强化学习,大模型机遇等


## 导读 本推文整理了 2021 年 8 月强化学习十大学术动态,涵盖强化学习相关领域的论文、会议、教程、观点等内容,全面覆盖 RL theory,multi-agent RL,imitation RL,offline RL,Hierarchical RL,RL application,AGI 等强化学习关键领域。 RLCN公众号后台回复:**前沿追踪**,即可获得 PDF 版论文和相关文献! ## 十大动态 ### 1、DeepMind 提出数据高效强化学习的新视角 数据效率一直是强化学习领域的核心问题。论文《Collect & Infer - a fresh look at data-efficient Reinforcement Learning》将数据高效强化学习的发展划分为三个阶段:①在线学习 RL:每个采样数据点仅仅使用一次。②带经验回放缓冲池的 RL:每一次更新会基于之前的一部分历史采样数据。③经验存储的 RL:所有历史采样都会被存储下来,并在其后的学习中被利用。尽管保存历史采样对提升数据效率有巨大帮助,但是如何收集这些数据却一直缺乏充分的研究。论文提出“ collect & infer ”的范式明确地将强化学习建模为数据采集与知识推理这两个独立但相互关联的过程,并分析了该范式的含义以及如何指导未来数据高效RL的研究。 ------------------------------------ ### 2、斯坦福 HAI 研究院综述基础大模型的机遇和风险 BERT, DALL-E, GPT-3 等的出现标志着人工智能正在经历一场范式转变,研究者在超大规模数据上训练基础大模型,以适应广泛的下游任务。综述报告《On the Opportunities and Risks of Foundation Models》从基础大模型的能力(如语言、视觉、机器人、推理、人类交互)和技术原理等方面对基础大模型机遇和风险进行了全面描述(例如,模型架构、训练方法、数据、系统、安全、评估、理论),并分析了其应用(例如,法律、医疗保健、教育)和社会影响(例如,不平等、滥用、经济和环境影响、法律和伦理考虑)。 ------------------------------------ ### 3、UCB 提出通过人类偏好反馈来学习提取机器技能的算法 让强化学习智能体具有与人相似的行为是具有挑战的任务,同时通过生成模型拟合大型离线演示数据集来提取行为技能是解决具有挑战性的长期任务的一个有前景的方法。但是这种生成模型继承了基础数据的潜在的偏误,导致在不完美的演示数据上进行训练时,学习到糟糕且不可用的技能。论文《Skill Preferences: Learning to Extract and Execute Robotic Skills from Human Feedback》提出了 Skill Preferences (SkiP)算法,该算法通过人类偏好学习一个模型,并使用它从离线数据中提取人类所偏好的技能。在提取人类偏好技能后,SkiP 还利用人类反馈,提升 RL 在下游任务上的表现。 ------------------------------------ ### 4、DeepMind 提出针对任意结构化输入输出的通用架构 Perceiver IO 人类在处理与整合各种类型数据方面表现出惊人的能力。针对目前缺乏通用的架构能解决各种类型输入输出的问题,论文《Perceiver IO: A General Architecture for Structured Inputs & Outputs》提出了Perceiver IO 架构,该架构基于 transformer,能处理自然语言、光流、多模态视频与音频等各种类型的输入输出,并在隐空间进行信息融合,更重要的是模型的计算复杂度与输入输出的尺度仅线性相关,使得处理大规模输入输出变得可行。Perceiver IO 模型在自然语言和视觉理解,星际争霸II,多任务和多模态领域等具有高度结构化输出空间的任务上取得了良好的结果。 ------------------------------------ ### 5、汪军团队提出多智能体策略梯度的最小方差估计 强化学习中策略梯度算法通常会引入基线来降低梯度估计的方差。尽管策略梯度定理可以自然地拓展到多智能体场景下,但是梯度估计的方差会随着智能体数量的增加迅速增长。针对这一问题,论文《Settling the Variance of Multi-Agent Policy Gradients》通过严格的分析量化了智能体数量和智能体的探索对策略梯度估计的方差的贡献,然后推导出了能最小化方差的最优基线(optimal control varaite)估计,并针对神经网络提出了一个更易使用的计算版本,可以无缝地插入 MARL 中任何现有的策略梯度方法。在 MuJoCo 和 StarCraft 的实验中,该方法有效地稳定了训练过程,且提升了 MAPPO 和 COMA 算法的表现。 ------------------------------------ ### 6、南大提出策略蒸馏方法将神经网络策略转变为决策树 深度强化学习在大量的复杂任务上取得了巨大进展,但是基于神经网络的策略往往缺乏解释性且难以保证安全性。通过策略蒸馏的方法将黑盒的模型转化为具有解释性并可检验的模型是一种值得探索的方法。但是策略蒸馏将行为克隆的监督学习信号作为优化目标,导致在强化学习中会出现数据分布偏移,导致性能下降。针对这一问题,论文《Neural-to-Tree Policy Distillation with Policy Improvement Criterion》提出新策略蒸馏方法将神经网络策略转变为决策树,并将最大化评估中的优势值作为优化目标,达到最大化累计奖励以及更加注重对奖励影响更大的那些状态的作用,控制了数据分布偏移带来的影响。 ------------------------------------ ### 7、哈工大提出具有稳定性保证的约束动力系统强化学习控制方法 强化学习在复杂的随机非线性控制问题中具有广阔的应用前景,但是基于数据的学习方法一般难以保证稳定性。针对这一问题,论文《Reinforcement learning control of constrained dynamic systems with uniformly ultimate boundedness stability guarantee》利用经典的李雅普诺夫方法,在不使用数学模型的情况下,仅从数据出发,分析了系统的一致极限有界稳定性(UUB),并进一步说明了带 UUB 保证的 RL 如何应用于具有安全约束的动态系统控制。基于理论结果,分别提出了 on-policy 和 off-policy 的算法,并在一系列具有安全约束的机器人连续控制任务中对所提出的算法进行了测试。 ------------------------------------ ### 8、Stanford 发文讨论从离线演示中学习机器人操作的关键问题 论文《What Matters in Learning from Offline Human Demonstrations for Robot Manipulation》针对五种不同复杂度和三种不同质量的多阶段操作任务,对机器人操作的六种离线学习算法分别进行了广泛的研究。研究分析了从离线人类数据中学习进行操作中最关键的挑战,并分析了在研究中取得的一系列经验,包括对不同算法设计选择的敏感性,对演示质量的依赖等,并强调了从人类数据集中学习的研究机遇,例如学习精通具有挑战性的、多阶段的任务策略的能力,以及轻松扩展到只有原始感官信号输入的自然真实操作场景的能力。 ------------------------------------ ### 9、NeurlPS 2021 数据集和基线赛道公布 数据集和仿真器是机器学习的重要原料,高质量的数据集和有见地的基准能有效推动相关领域的研究,所以 NeurlPS 2021 为此开设了专门的 track ,其中有十余个与强化学习相关的数据集和仿真器被录用,包括无人驾驶、物理仿真器、开放世界沙盒、交通信号控制、持续学习、协作任务等。 ------------------------------------ ### 10、2021 年秋季 CS285 深度强化学习课程开始更新 CS285 是由加州伯克利分校教授 Sergey Levine 开设的强化学习课程,课程包括基础的值方法、策略梯度方法到前沿的offline RL、meta RL、multi-task、变分推断等主题,还包括针对性的项目作业。2021秋季学期课程的课件、视频等内容已经在课程网站开始更新,每周包括两讲的内容。 ## 联系我们 Email: <rlchinacamp@163.com> ![Description](https://jidi-images.oss-cn-beijing.aliyuncs.com/rlchina2021/rlcn.jpeg?x-oss-process=image%2Fresize%2Cl_200) 来源:[https://mp.weixin.qq.com/s/UuWuR8WGS1b6FyyhaD1ITw](https://mp.weixin.qq.com/s/UuWuR8WGS1b6FyyhaD1ITw)

导读

本推文整理了 2021 年 8 月强化学习十大学术动态,涵盖强化学习相关领域的论文、会议、教程、观点等内容,全面覆盖 RL theory,multi-agent RL,imitation RL,offline RL,Hierarchical RL,RL application,AGI 等强化学习关键领域。

RLCN公众号后台回复:前沿追踪,即可获得 PDF 版论文和相关文献!

十大动态

1、DeepMind 提出数据高效强化学习的新视角

数据效率一直是强化学习领域的核心问题。论文《Collect & Infer - a fresh look at data-efficient Reinforcement Learning》将数据高效强化学习的发展划分为三个阶段:①在线学习 RL:每个采样数据点仅仅使用一次。②带经验回放缓冲池的 RL:每一次更新会基于之前的一部分历史采样数据。③经验存储的 RL:所有历史采样都会被存储下来,并在其后的学习中被利用。尽管保存历史采样对提升数据效率有巨大帮助,但是如何收集这些数据却一直缺乏充分的研究。论文提出“ collect & infer ”的范式明确地将强化学习建模为数据采集与知识推理这两个独立但相互关联的过程,并分析了该范式的含义以及如何指导未来数据高效RL的研究。


2、斯坦福 HAI 研究院综述基础大模型的机遇和风险

BERT, DALL-E, GPT-3 等的出现标志着人工智能正在经历一场范式转变,研究者在超大规模数据上训练基础大模型,以适应广泛的下游任务。综述报告《On the Opportunities and Risks of Foundation Models》从基础大模型的能力(如语言、视觉、机器人、推理、人类交互)和技术原理等方面对基础大模型机遇和风险进行了全面描述(例如,模型架构、训练方法、数据、系统、安全、评估、理论),并分析了其应用(例如,法律、医疗保健、教育)和社会影响(例如,不平等、滥用、经济和环境影响、法律和伦理考虑)。


3、UCB 提出通过人类偏好反馈来学习提取机器技能的算法

让强化学习智能体具有与人相似的行为是具有挑战的任务,同时通过生成模型拟合大型离线演示数据集来提取行为技能是解决具有挑战性的长期任务的一个有前景的方法。但是这种生成模型继承了基础数据的潜在的偏误,导致在不完美的演示数据上进行训练时,学习到糟糕且不可用的技能。论文《Skill Preferences: Learning to Extract and Execute Robotic Skills from Human Feedback》提出了 Skill Preferences (SkiP)算法,该算法通过人类偏好学习一个模型,并使用它从离线数据中提取人类所偏好的技能。在提取人类偏好技能后,SkiP 还利用人类反馈,提升 RL 在下游任务上的表现。


4、DeepMind 提出针对任意结构化输入输出的通用架构 Perceiver IO

人类在处理与整合各种类型数据方面表现出惊人的能力。针对目前缺乏通用的架构能解决各种类型输入输出的问题,论文《Perceiver IO: A General Architecture for Structured Inputs & Outputs》提出了Perceiver IO 架构,该架构基于 transformer,能处理自然语言、光流、多模态视频与音频等各种类型的输入输出,并在隐空间进行信息融合,更重要的是模型的计算复杂度与输入输出的尺度仅线性相关,使得处理大规模输入输出变得可行。Perceiver IO 模型在自然语言和视觉理解,星际争霸II,多任务和多模态领域等具有高度结构化输出空间的任务上取得了良好的结果。


5、汪军团队提出多智能体策略梯度的最小方差估计

强化学习中策略梯度算法通常会引入基线来降低梯度估计的方差。尽管策略梯度定理可以自然地拓展到多智能体场景下,但是梯度估计的方差会随着智能体数量的增加迅速增长。针对这一问题,论文《Settling the Variance of Multi-Agent Policy Gradients》通过严格的分析量化了智能体数量和智能体的探索对策略梯度估计的方差的贡献,然后推导出了能最小化方差的最优基线(optimal control varaite)估计,并针对神经网络提出了一个更易使用的计算版本,可以无缝地插入 MARL 中任何现有的策略梯度方法。在 MuJoCo 和 StarCraft 的实验中,该方法有效地稳定了训练过程,且提升了 MAPPO 和 COMA 算法的表现。


6、南大提出策略蒸馏方法将神经网络策略转变为决策树

深度强化学习在大量的复杂任务上取得了巨大进展,但是基于神经网络的策略往往缺乏解释性且难以保证安全性。通过策略蒸馏的方法将黑盒的模型转化为具有解释性并可检验的模型是一种值得探索的方法。但是策略蒸馏将行为克隆的监督学习信号作为优化目标,导致在强化学习中会出现数据分布偏移,导致性能下降。针对这一问题,论文《Neural-to-Tree Policy Distillation with Policy Improvement Criterion》提出新策略蒸馏方法将神经网络策略转变为决策树,并将最大化评估中的优势值作为优化目标,达到最大化累计奖励以及更加注重对奖励影响更大的那些状态的作用,控制了数据分布偏移带来的影响。


7、哈工大提出具有稳定性保证的约束动力系统强化学习控制方法

强化学习在复杂的随机非线性控制问题中具有广阔的应用前景,但是基于数据的学习方法一般难以保证稳定性。针对这一问题,论文《Reinforcement learning control of constrained dynamic systems with uniformly ultimate boundedness stability guarantee》利用经典的李雅普诺夫方法,在不使用数学模型的情况下,仅从数据出发,分析了系统的一致极限有界稳定性(UUB),并进一步说明了带 UUB 保证的 RL 如何应用于具有安全约束的动态系统控制。基于理论结果,分别提出了 on-policy 和 off-policy 的算法,并在一系列具有安全约束的机器人连续控制任务中对所提出的算法进行了测试。


8、Stanford 发文讨论从离线演示中学习机器人操作的关键问题

论文《What Matters in Learning from Offline Human Demonstrations for Robot Manipulation》针对五种不同复杂度和三种不同质量的多阶段操作任务,对机器人操作的六种离线学习算法分别进行了广泛的研究。研究分析了从离线人类数据中学习进行操作中最关键的挑战,并分析了在研究中取得的一系列经验,包括对不同算法设计选择的敏感性,对演示质量的依赖等,并强调了从人类数据集中学习的研究机遇,例如学习精通具有挑战性的、多阶段的任务策略的能力,以及轻松扩展到只有原始感官信号输入的自然真实操作场景的能力。


9、NeurlPS 2021 数据集和基线赛道公布

数据集和仿真器是机器学习的重要原料,高质量的数据集和有见地的基准能有效推动相关领域的研究,所以 NeurlPS 2021 为此开设了专门的 track ,其中有十余个与强化学习相关的数据集和仿真器被录用,包括无人驾驶、物理仿真器、开放世界沙盒、交通信号控制、持续学习、协作任务等。


10、2021 年秋季 CS285 深度强化学习课程开始更新

CS285 是由加州伯克利分校教授 Sergey Levine 开设的强化学习课程,课程包括基础的值方法、策略梯度方法到前沿的offline RL、meta RL、multi-task、变分推断等主题,还包括针对性的项目作业。2021秋季学期课程的课件、视频等内容已经在课程网站开始更新,每周包括两讲的内容。

联系我们

Email: rlchinacamp@163.com

Description

来源:https://mp.weixin.qq.com/s/UuWuR8WGS1b6FyyhaD1ITw

导读

本推文整理了 2021 年 8 月强化学习十大学术动态,涵盖强化学习相关领域的论文、会议、教程、观点等内容,全面覆盖 RL theory,multi-agent RL,imitation RL,offline RL,Hierarchical RL,RL application,AGI 等强化学习关键领域。

RLCN公众号后台回复:前沿追踪,即可获得 PDF 版论文和相关文献!

十大动态

1、DeepMind 提出数据高效强化学习的新视角

数据效率一直是强化学习领域的核心问题。论文《Collect & Infer - a fresh look at data-efficient Reinforcement Learning》将数据高效强化学习的发展划分为三个阶段:①在线学习 RL:每个采样数据点仅仅使用一次。②带经验回放缓冲池的 RL:每一次更新会基于之前的一部分历史采样数据。③经验存储的 RL:所有历史采样都会被存储下来,并在其后的学习中被利用。尽管保存历史采样对提升数据效率有巨大帮助,但是如何收集这些数据却一直缺乏充分的研究。论文提出“ collect & infer ”的范式明确地将强化学习建模为数据采集与知识推理这两个独立但相互关联的过程,并分析了该范式的含义以及如何指导未来数据高效RL的研究。


2、斯坦福 HAI 研究院综述基础大模型的机遇和风险

BERT, DALL-E, GPT-3 等的出现标志着人工智能正在经历一场范式转变,研究者在超大规模数据上训练基础大模型,以适应广泛的下游任务。综述报告《On the Opportunities and Risks of Foundation Models》从基础大模型的能力(如语言、视觉、机器人、推理、人类交互)和技术原理等方面对基础大模型机遇和风险进行了全面描述(例如,模型架构、训练方法、数据、系统、安全、评估、理论),并分析了其应用(例如,法律、医疗保健、教育)和社会影响(例如,不平等、滥用、经济和环境影响、法律和伦理考虑)。


3、UCB 提出通过人类偏好反馈来学习提取机器技能的算法

让强化学习智能体具有与人相似的行为是具有挑战的任务,同时通过生成模型拟合大型离线演示数据集来提取行为技能是解决具有挑战性的长期任务的一个有前景的方法。但是这种生成模型继承了基础数据的潜在的偏误,导致在不完美的演示数据上进行训练时,学习到糟糕且不可用的技能。论文《Skill Preferences: Learning to Extract and Execute Robotic Skills from Human Feedback》提出了 Skill Preferences (SkiP)算法,该算法通过人类偏好学习一个模型,并使用它从离线数据中提取人类所偏好的技能。在提取人类偏好技能后,SkiP 还利用人类反馈,提升 RL 在下游任务上的表现。


4、DeepMind 提出针对任意结构化输入输出的通用架构 Perceiver IO

人类在处理与整合各种类型数据方面表现出惊人的能力。针对目前缺乏通用的架构能解决各种类型输入输出的问题,论文《Perceiver IO: A General Architecture for Structured Inputs & Outputs》提出了Perceiver IO 架构,该架构基于 transformer,能处理自然语言、光流、多模态视频与音频等各种类型的输入输出,并在隐空间进行信息融合,更重要的是模型的计算复杂度与输入输出的尺度仅线性相关,使得处理大规模输入输出变得可行。Perceiver IO 模型在自然语言和视觉理解,星际争霸II,多任务和多模态领域等具有高度结构化输出空间的任务上取得了良好的结果。


5、汪军团队提出多智能体策略梯度的最小方差估计

强化学习中策略梯度算法通常会引入基线来降低梯度估计的方差。尽管策略梯度定理可以自然地拓展到多智能体场景下,但是梯度估计的方差会随着智能体数量的增加迅速增长。针对这一问题,论文《Settling the Variance of Multi-Agent Policy Gradients》通过严格的分析量化了智能体数量和智能体的探索对策略梯度估计的方差的贡献,然后推导出了能最小化方差的最优基线(optimal control varaite)估计,并针对神经网络提出了一个更易使用的计算版本,可以无缝地插入 MARL 中任何现有的策略梯度方法。在 MuJoCo 和 StarCraft 的实验中,该方法有效地稳定了训练过程,且提升了 MAPPO 和 COMA 算法的表现。


6、南大提出策略蒸馏方法将神经网络策略转变为决策树

深度强化学习在大量的复杂任务上取得了巨大进展,但是基于神经网络的策略往往缺乏解释性且难以保证安全性。通过策略蒸馏的方法将黑盒的模型转化为具有解释性并可检验的模型是一种值得探索的方法。但是策略蒸馏将行为克隆的监督学习信号作为优化目标,导致在强化学习中会出现数据分布偏移,导致性能下降。针对这一问题,论文《Neural-to-Tree Policy Distillation with Policy Improvement Criterion》提出新策略蒸馏方法将神经网络策略转变为决策树,并将最大化评估中的优势值作为优化目标,达到最大化累计奖励以及更加注重对奖励影响更大的那些状态的作用,控制了数据分布偏移带来的影响。


7、哈工大提出具有稳定性保证的约束动力系统强化学习控制方法

强化学习在复杂的随机非线性控制问题中具有广阔的应用前景,但是基于数据的学习方法一般难以保证稳定性。针对这一问题,论文《Reinforcement learning control of constrained dynamic systems with uniformly ultimate boundedness stability guarantee》利用经典的李雅普诺夫方法,在不使用数学模型的情况下,仅从数据出发,分析了系统的一致极限有界稳定性(UUB),并进一步说明了带 UUB 保证的 RL 如何应用于具有安全约束的动态系统控制。基于理论结果,分别提出了 on-policy 和 off-policy 的算法,并在一系列具有安全约束的机器人连续控制任务中对所提出的算法进行了测试。


8、Stanford 发文讨论从离线演示中学习机器人操作的关键问题

论文《What Matters in Learning from Offline Human Demonstrations for Robot Manipulation》针对五种不同复杂度和三种不同质量的多阶段操作任务,对机器人操作的六种离线学习算法分别进行了广泛的研究。研究分析了从离线人类数据中学习进行操作中最关键的挑战,并分析了在研究中取得的一系列经验,包括对不同算法设计选择的敏感性,对演示质量的依赖等,并强调了从人类数据集中学习的研究机遇,例如学习精通具有挑战性的、多阶段的任务策略的能力,以及轻松扩展到只有原始感官信号输入的自然真实操作场景的能力。


9、NeurlPS 2021 数据集和基线赛道公布

数据集和仿真器是机器学习的重要原料,高质量的数据集和有见地的基准能有效推动相关领域的研究,所以 NeurlPS 2021 为此开设了专门的 track ,其中有十余个与强化学习相关的数据集和仿真器被录用,包括无人驾驶、物理仿真器、开放世界沙盒、交通信号控制、持续学习、协作任务等。


10、2021 年秋季 CS285 深度强化学习课程开始更新

CS285 是由加州伯克利分校教授 Sergey Levine 开设的强化学习课程,课程包括基础的值方法、策略梯度方法到前沿的offline RL、meta RL、multi-task、变分推断等主题,还包括针对性的项目作业。2021秋季学期课程的课件、视频等内容已经在课程网站开始更新,每周包括两讲的内容。

联系我们

Email: rlchinacamp@163.com

Description

来源:https://mp.weixin.qq.com/s/UuWuR8WGS1b6FyyhaD1ITw

评论