前沿追踪 | 强化学习月度十大动态 2201 期:可解释性强化学习综述,多任务学习理论分析等
## 导读 本推文整理了 2022 年 1 月强化学习十大学术动态,涵盖强化学习相关领域的论文、会议、教程、竞赛等内容,全面覆盖 RL theory,multi-agent RL,unsupervised RL,offline RL,RL application等强化学习关键领域。 ## 十大动态 ### 1. 牛津大学提出多任务学习中单一规模化方法的理论分析 最近的多任务学习研究反对单一标量化,即训练只是最小化任务损失的总和。因此,研究人员提出了一系列特殊的多任务优化器。论文《In Defense of the Unitary Scalarization for Deep Multi-Task Learning》表明许多特殊的多任务优化器可以解释为正则化。此外,论文还表明,当与来自单任务学习的标准正则化和稳定化技术相结合时,单一标量化匹配或改进了复杂多任务优化算法在监督和强化学习环境中的性能。 【论文链接】:[https://arxiv.org/pdf/2201.04122v1.pdf](https://arxiv.org/pdf/2201.04122v1.pdf) -------------------------------------- ### 2. 帝国理工研究时间限制在强化学习中的作用 在强化学习中,通常会使智能体与环境交互固定时间的长度。智能体学习的任务可被分为两种类型:(1)最大化固定时间内的获得的奖励(2)最大化一段不确定时间长度内的奖励。论文《Time Limits in Reinforcement Learning》解释了时间限制在两个例子中是如何被有效处理的,并且解释了为什么不这样做会导致状态别名和经验回放的无效。在情况(1)中,由于时间限制造成的终止被视为环境中的一部分。因此应当将剩余时间作为智能体的输入,从而避免破坏马尔可夫性。在情况(2)中,时间限制不是环境的一部分,而仅仅是促进学习的一种方式。作者认为,这种洞察应该通过在每一部分episode结束时从状态的价值中引导而来。对于这两种情况,实验都从经验上说明了论文观点在提高现有强化学习算法的性能和稳定性方面的重要性,并在几个控制任务上表现出了最先进的结果。 【原文链接】:[https://arxiv.org/pdf/1712.00378.pdf](https://arxiv.org/pdf/1712.00378.pdf) -------------------------------------- ### 3. 普林斯顿大学提出安全强化学习新算法 安全性对基于学习的自动驾驶算法来说至关重要。然而使用强化学习得到的策略经常会在新环境中做出不安全的行为。论文《Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and Generalization Guarantees》提出了Sim-to-Lab-to-Real来安全地缩小与现实之间的差距。为提高策略的安全性,作者使用了对偶策略,一个来使用实验中获得的累计奖励训练,另一个基于Hamilton-Jacobi可达性分析求解 reach-avoid 贝尔曼方程训练。在“仿真到实验”的迁移过程中,使用一个监督控制框架来避免在探索中出现不安全行为;在“实验到真实”的迁移过程中,使用PAC-Bayes框架得到在未见过的场景中策略的表现与安全性的下界。 【论文链接】:[https://arxiv.org/pdf/2201.04122v1.pdf](https://arxiv.org/pdf/2201.04122v1.pdf) --------------------------------------- ### 4. 清华大学提出从离线到在线强化学习算法 随着离线强化学习的发展,离线训练的强化学习算法在部署到在线场景时有可能获得性能的提升。策略的平滑迁移与快速适应在实际在线性能提升中至关重要。论文《MOORe: Model-based Offline-to-Online Reinforcement Learning》提出了Model-based Offline-to-Online Reinforcement learning (MOORe)算法,使用优先采样框架来动态调整离线与在线数据,从而实现平滑迁移。实验表明该算法能够在保证在线调整过程中采样高效的同时提高使策略平滑迁移,并且表现优于现有算法。 【论文链接】:[https://arxiv.org/pdf/2201.10070v1.pdf](https://arxiv.org/pdf/2201.10070v1.pdf) --------------------------------------- ### 5. 智利天主教大学提出探索奖励函数结构的方法 强化学习方法通常将奖励函数视为黑盒。但在实际强化学习应用中,用户需要设计奖励函数。因此可以学习奖励函数的内在结构来更高效地学习最优策略。论文《Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning》通过两步来探索奖励函数结构。首先作者提出了奖励机器,在揭示奖励功能结构的同时,支持奖励功能的规范。之后使用自动奖励塑造、任务分解和非策略学习的反事实推理等方法来探索这个结构。 【原文链接】:[https://arxiv.org/pdf/2010.03950v2.pdf](https://arxiv.org/pdf/2010.03950v2.pdf) ------------------------------------ ### 6. 牛津大学发表自动强化学习综述 深度强化学习取得了一系列令人印象深刻的成就。然而,强化学习智能体的成功通常对训练过程中的超参数等的选择高度敏感,而这需要人为调整。这也给强化学习的应用带来了挑战。在机器学习的许多其他领域,AutoML已经表明,自动化选择参数是可行的,并且在应用于强化学习时也产生了有潜力的初步结果。然而,自动强化学习(AutoRL)不仅涉及AutoML的标准应用,还包括RL特有的其他挑战,也由此产生了一系列不同的方法。因此,AutoRL已经成为RL的一个重要研究领域。但由于RL中考虑的方法和环境的多样性,大部分研究都在不同的子领域进行。在论文《Automated Reinforcement Learning (AutoRL): A Survey and Open Problems》中,作者试图统一AutoRL领域,提供一个共同的分类法。该论文详细讨论了AutoRL的每个领域,并提出了开放性问题。  【论文链接】:[https://arxiv.org/pdf/2201.03916.pdf](https://arxiv.org/pdf/2201.03916.pdf) ------------------------------------ ### 7. 上海交通大学密歇根学院发表关于可解释性强化学习综述文章 尽管深度强化学习已经成为了一个有效的解决序列决策问题的机器学习方法,但由于可解释性的原因而未能广泛应用于自动驾驶等高风险的领域。综述《A Survey on Interpretable Reinforcement Learning》概述了在强化学习中实现更高解释性的各种方法。作者在该综述中区分了interpretability和explainability这两个概念,并在强化学习的背景下着重分析了前者。作者认为可解释性RL包含以下方面:可解释的输入、可解释的(转换/奖励)模型和可解释的决策。在此基础上,作者总结分析了以最近十年为主的关于可解释性强化学习的相关工作。同时作者也简要地讨论了相关研究领域,并指出了有潜在价值的研究方向。 【论文链接】:[https://arxiv.org/pdf/2112.13112.pdf](https://arxiv.org/pdf/2112.13112.pdf) ------------------------------------ ### 8. 南京大学发表强化学习可解释性综述 强化学习是一种从试错过程中发现最优行为策略的技术,已经成为解决环境交互问题的通用方法.然而,缺乏可解释性限制了强化学习在安全敏感领域中的应用。为了克服强化学习的这一弱点,涌现了大量强化学习可解释性(Explainable Reinforcement Learning,XRL)的研究。然而,学术界对XRL尚缺乏一致认识。论文《Explainable Reinforcement Learning: Basic Problems Exploration and A Survey》探索XRL的基础性问题,并对现有工作进行综述。首先探讨了父问题——人工智能可解释性,对人工智能可解释性的已有定义进行了汇总;其次,构建了一套可解释性领域的理论体系,从而描述XRL与人工智能可解释性的共同问题,包括界定智能算法和机械算法、定义解释的含义、讨论影响可解释性的因素、划分了解释的直观性;然后,根据强化学习本身的特征,定义了XRL的三个独有问题,即环境解释、任务解释、策略解释;之后,对现有方法进行了系统的归类,并对XRL的最新进展进行综述;最后,展望了XRL领域的潜在研究方向. 【论文链接】:[http://www.jos.org.cn/jos/article/abstract/6485](http://www.jos.org.cn/jos/article/abstract/6485) -------------------------------------- ### 9. 第六届深度强化学习理论与应用研讨会于2022年1月14日-15日举办 由中科院自动化所复杂系统管理与控制国家重点实验室和中国自动化学会主办的第六届深度强化学习理论与应用研讨会于2022年1月14日-15日举办,本次活动由中科院自动化所深度强化学习团队和中国自动化学会数据驱动,控制与优化专业委员会承办。该活动在中科院自动化所线下和网络线上举行。  【通知链接】:[https://mp.weixin.qq.com/s/kC9Juw3At-qP2egOHYFZPA](https://mp.weixin.qq.com/s/kC9Juw3At-qP2egOHYFZPA) ------------------------------------ ### 10.Jeff Dean万字长文总结Google AI成果与未来趋势 1月11日, Jeff Dean发表万字长文的年度总结,系统回顾了过去一年来机器学习领域的五大趋势。1.功能更强大、通用的机器学习模型,2.机器学习模型效率持续提升,3.机器学习造福个人和社区,4.机器学习在科学、健康和可持续发展方面的进步,5.对机器学习更深更广的理解。  【相关链接】:[https://ai.googleblog.com/2022/01/google-research-themes-from-2021-and.html](https://ai.googleblog.com/2022/01/google-research-themes-from-2021-and.html) ------------------------------------ ## 联系我们 欢迎关注RLCN公众号,获取RL相关资讯。后台回复:**前沿追踪**,即可获得往期所有 PDF 版论文列表和相关文献! Email: <rlchinacamp@163.com> 
导读
本推文整理了 2022 年 1 月强化学习十大学术动态,涵盖强化学习相关领域的论文、会议、教程、竞赛等内容,全面覆盖 RL theory,multi-agent RL,unsupervised RL,offline RL,RL application等强化学习关键领域。
十大动态
1. 牛津大学提出多任务学习中单一规模化方法的理论分析
最近的多任务学习研究反对单一标量化,即训练只是最小化任务损失的总和。因此,研究人员提出了一系列特殊的多任务优化器。论文《In Defense of the Unitary Scalarization for Deep Multi-Task Learning》表明许多特殊的多任务优化器可以解释为正则化。此外,论文还表明,当与来自单任务学习的标准正则化和稳定化技术相结合时,单一标量化匹配或改进了复杂多任务优化算法在监督和强化学习环境中的性能。
【论文链接】:https://arxiv.org/pdf/2201.04122v1.pdf
2. 帝国理工研究时间限制在强化学习中的作用
在强化学习中,通常会使智能体与环境交互固定时间的长度。智能体学习的任务可被分为两种类型:(1)最大化固定时间内的获得的奖励(2)最大化一段不确定时间长度内的奖励。论文《Time Limits in Reinforcement Learning》解释了时间限制在两个例子中是如何被有效处理的,并且解释了为什么不这样做会导致状态别名和经验回放的无效。在情况(1)中,由于时间限制造成的终止被视为环境中的一部分。因此应当将剩余时间作为智能体的输入,从而避免破坏马尔可夫性。在情况(2)中,时间限制不是环境的一部分,而仅仅是促进学习的一种方式。作者认为,这种洞察应该通过在每一部分episode结束时从状态的价值中引导而来。对于这两种情况,实验都从经验上说明了论文观点在提高现有强化学习算法的性能和稳定性方面的重要性,并在几个控制任务上表现出了最先进的结果。
【原文链接】:https://arxiv.org/pdf/1712.00378.pdf
3. 普林斯顿大学提出安全强化学习新算法
安全性对基于学习的自动驾驶算法来说至关重要。然而使用强化学习得到的策略经常会在新环境中做出不安全的行为。论文《Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and Generalization Guarantees》提出了Sim-to-Lab-to-Real来安全地缩小与现实之间的差距。为提高策略的安全性,作者使用了对偶策略,一个来使用实验中获得的累计奖励训练,另一个基于Hamilton-Jacobi可达性分析求解 reach-avoid 贝尔曼方程训练。在“仿真到实验”的迁移过程中,使用一个监督控制框架来避免在探索中出现不安全行为;在“实验到真实”的迁移过程中,使用PAC-Bayes框架得到在未见过的场景中策略的表现与安全性的下界。
【论文链接】:https://arxiv.org/pdf/2201.04122v1.pdf
4. 清华大学提出从离线到在线强化学习算法
随着离线强化学习的发展,离线训练的强化学习算法在部署到在线场景时有可能获得性能的提升。策略的平滑迁移与快速适应在实际在线性能提升中至关重要。论文《MOORe: Model-based Offline-to-Online Reinforcement Learning》提出了Model-based Offline-to-Online Reinforcement learning (MOORe)算法,使用优先采样框架来动态调整离线与在线数据,从而实现平滑迁移。实验表明该算法能够在保证在线调整过程中采样高效的同时提高使策略平滑迁移,并且表现优于现有算法。
【论文链接】:https://arxiv.org/pdf/2201.10070v1.pdf
5. 智利天主教大学提出探索奖励函数结构的方法
强化学习方法通常将奖励函数视为黑盒。但在实际强化学习应用中,用户需要设计奖励函数。因此可以学习奖励函数的内在结构来更高效地学习最优策略。论文《Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning》通过两步来探索奖励函数结构。首先作者提出了奖励机器,在揭示奖励功能结构的同时,支持奖励功能的规范。之后使用自动奖励塑造、任务分解和非策略学习的反事实推理等方法来探索这个结构。
【原文链接】:https://arxiv.org/pdf/2010.03950v2.pdf
6. 牛津大学发表自动强化学习综述
深度强化学习取得了一系列令人印象深刻的成就。然而,强化学习智能体的成功通常对训练过程中的超参数等的选择高度敏感,而这需要人为调整。这也给强化学习的应用带来了挑战。在机器学习的许多其他领域,AutoML已经表明,自动化选择参数是可行的,并且在应用于强化学习时也产生了有潜力的初步结果。然而,自动强化学习(AutoRL)不仅涉及AutoML的标准应用,还包括RL特有的其他挑战,也由此产生了一系列不同的方法。因此,AutoRL已经成为RL的一个重要研究领域。但由于RL中考虑的方法和环境的多样性,大部分研究都在不同的子领域进行。在论文《Automated Reinforcement Learning (AutoRL): A Survey and Open Problems》中,作者试图统一AutoRL领域,提供一个共同的分类法。该论文详细讨论了AutoRL的每个领域,并提出了开放性问题。
【论文链接】:https://arxiv.org/pdf/2201.03916.pdf
7. 上海交通大学密歇根学院发表关于可解释性强化学习综述文章
尽管深度强化学习已经成为了一个有效的解决序列决策问题的机器学习方法,但由于可解释性的原因而未能广泛应用于自动驾驶等高风险的领域。综述《A Survey on Interpretable Reinforcement Learning》概述了在强化学习中实现更高解释性的各种方法。作者在该综述中区分了interpretability和explainability这两个概念,并在强化学习的背景下着重分析了前者。作者认为可解释性RL包含以下方面:可解释的输入、可解释的(转换/奖励)模型和可解释的决策。在此基础上,作者总结分析了以最近十年为主的关于可解释性强化学习的相关工作。同时作者也简要地讨论了相关研究领域,并指出了有潜在价值的研究方向。
【论文链接】:https://arxiv.org/pdf/2112.13112.pdf
8. 南京大学发表强化学习可解释性综述
强化学习是一种从试错过程中发现最优行为策略的技术,已经成为解决环境交互问题的通用方法.然而,缺乏可解释性限制了强化学习在安全敏感领域中的应用。为了克服强化学习的这一弱点,涌现了大量强化学习可解释性(Explainable Reinforcement Learning,XRL)的研究。然而,学术界对XRL尚缺乏一致认识。论文《Explainable Reinforcement Learning: Basic Problems Exploration and A Survey》探索XRL的基础性问题,并对现有工作进行综述。首先探讨了父问题——人工智能可解释性,对人工智能可解释性的已有定义进行了汇总;其次,构建了一套可解释性领域的理论体系,从而描述XRL与人工智能可解释性的共同问题,包括界定智能算法和机械算法、定义解释的含义、讨论影响可解释性的因素、划分了解释的直观性;然后,根据强化学习本身的特征,定义了XRL的三个独有问题,即环境解释、任务解释、策略解释;之后,对现有方法进行了系统的归类,并对XRL的最新进展进行综述;最后,展望了XRL领域的潜在研究方向.
【论文链接】:http://www.jos.org.cn/jos/article/abstract/6485
9. 第六届深度强化学习理论与应用研讨会于2022年1月14日-15日举办
由中科院自动化所复杂系统管理与控制国家重点实验室和中国自动化学会主办的第六届深度强化学习理论与应用研讨会于2022年1月14日-15日举办,本次活动由中科院自动化所深度强化学习团队和中国自动化学会数据驱动,控制与优化专业委员会承办。该活动在中科院自动化所线下和网络线上举行。
【通知链接】:https://mp.weixin.qq.com/s/kC9Juw3At-qP2egOHYFZPA
10.Jeff Dean万字长文总结Google AI成果与未来趋势
1月11日, Jeff Dean发表万字长文的年度总结,系统回顾了过去一年来机器学习领域的五大趋势。1.功能更强大、通用的机器学习模型,2.机器学习模型效率持续提升,3.机器学习造福个人和社区,4.机器学习在科学、健康和可持续发展方面的进步,5.对机器学习更深更广的理解。
【相关链接】:https://ai.googleblog.com/2022/01/google-research-themes-from-2021-and.html
联系我们
欢迎关注RLCN公众号,获取RL相关资讯。后台回复:前沿追踪,即可获得往期所有 PDF 版论文列表和相关文献!
Email: rlchinacamp@163.com
导读
本推文整理了 2022 年 1 月强化学习十大学术动态,涵盖强化学习相关领域的论文、会议、教程、竞赛等内容,全面覆盖 RL theory,multi-agent RL,unsupervised RL,offline RL,RL application等强化学习关键领域。
十大动态
1. 牛津大学提出多任务学习中单一规模化方法的理论分析
最近的多任务学习研究反对单一标量化,即训练只是最小化任务损失的总和。因此,研究人员提出了一系列特殊的多任务优化器。论文《In Defense of the Unitary Scalarization for Deep Multi-Task Learning》表明许多特殊的多任务优化器可以解释为正则化。此外,论文还表明,当与来自单任务学习的标准正则化和稳定化技术相结合时,单一标量化匹配或改进了复杂多任务优化算法在监督和强化学习环境中的性能。
【论文链接】:https://arxiv.org/pdf/2201.04122v1.pdf
2. 帝国理工研究时间限制在强化学习中的作用
在强化学习中,通常会使智能体与环境交互固定时间的长度。智能体学习的任务可被分为两种类型:(1)最大化固定时间内的获得的奖励(2)最大化一段不确定时间长度内的奖励。论文《Time Limits in Reinforcement Learning》解释了时间限制在两个例子中是如何被有效处理的,并且解释了为什么不这样做会导致状态别名和经验回放的无效。在情况(1)中,由于时间限制造成的终止被视为环境中的一部分。因此应当将剩余时间作为智能体的输入,从而避免破坏马尔可夫性。在情况(2)中,时间限制不是环境的一部分,而仅仅是促进学习的一种方式。作者认为,这种洞察应该通过在每一部分episode结束时从状态的价值中引导而来。对于这两种情况,实验都从经验上说明了论文观点在提高现有强化学习算法的性能和稳定性方面的重要性,并在几个控制任务上表现出了最先进的结果。
【原文链接】:https://arxiv.org/pdf/1712.00378.pdf
3. 普林斯顿大学提出安全强化学习新算法
安全性对基于学习的自动驾驶算法来说至关重要。然而使用强化学习得到的策略经常会在新环境中做出不安全的行为。论文《Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and Generalization Guarantees》提出了Sim-to-Lab-to-Real来安全地缩小与现实之间的差距。为提高策略的安全性,作者使用了对偶策略,一个来使用实验中获得的累计奖励训练,另一个基于Hamilton-Jacobi可达性分析求解 reach-avoid 贝尔曼方程训练。在“仿真到实验”的迁移过程中,使用一个监督控制框架来避免在探索中出现不安全行为;在“实验到真实”的迁移过程中,使用PAC-Bayes框架得到在未见过的场景中策略的表现与安全性的下界。
【论文链接】:https://arxiv.org/pdf/2201.04122v1.pdf
4. 清华大学提出从离线到在线强化学习算法
随着离线强化学习的发展,离线训练的强化学习算法在部署到在线场景时有可能获得性能的提升。策略的平滑迁移与快速适应在实际在线性能提升中至关重要。论文《MOORe: Model-based Offline-to-Online Reinforcement Learning》提出了Model-based Offline-to-Online Reinforcement learning (MOORe)算法,使用优先采样框架来动态调整离线与在线数据,从而实现平滑迁移。实验表明该算法能够在保证在线调整过程中采样高效的同时提高使策略平滑迁移,并且表现优于现有算法。
【论文链接】:https://arxiv.org/pdf/2201.10070v1.pdf
5. 智利天主教大学提出探索奖励函数结构的方法
强化学习方法通常将奖励函数视为黑盒。但在实际强化学习应用中,用户需要设计奖励函数。因此可以学习奖励函数的内在结构来更高效地学习最优策略。论文《Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning》通过两步来探索奖励函数结构。首先作者提出了奖励机器,在揭示奖励功能结构的同时,支持奖励功能的规范。之后使用自动奖励塑造、任务分解和非策略学习的反事实推理等方法来探索这个结构。
【原文链接】:https://arxiv.org/pdf/2010.03950v2.pdf
6. 牛津大学发表自动强化学习综述
深度强化学习取得了一系列令人印象深刻的成就。然而,强化学习智能体的成功通常对训练过程中的超参数等的选择高度敏感,而这需要人为调整。这也给强化学习的应用带来了挑战。在机器学习的许多其他领域,AutoML已经表明,自动化选择参数是可行的,并且在应用于强化学习时也产生了有潜力的初步结果。然而,自动强化学习(AutoRL)不仅涉及AutoML的标准应用,还包括RL特有的其他挑战,也由此产生了一系列不同的方法。因此,AutoRL已经成为RL的一个重要研究领域。但由于RL中考虑的方法和环境的多样性,大部分研究都在不同的子领域进行。在论文《Automated Reinforcement Learning (AutoRL): A Survey and Open Problems》中,作者试图统一AutoRL领域,提供一个共同的分类法。该论文详细讨论了AutoRL的每个领域,并提出了开放性问题。
【论文链接】:https://arxiv.org/pdf/2201.03916.pdf
7. 上海交通大学密歇根学院发表关于可解释性强化学习综述文章
尽管深度强化学习已经成为了一个有效的解决序列决策问题的机器学习方法,但由于可解释性的原因而未能广泛应用于自动驾驶等高风险的领域。综述《A Survey on Interpretable Reinforcement Learning》概述了在强化学习中实现更高解释性的各种方法。作者在该综述中区分了interpretability和explainability这两个概念,并在强化学习的背景下着重分析了前者。作者认为可解释性RL包含以下方面:可解释的输入、可解释的(转换/奖励)模型和可解释的决策。在此基础上,作者总结分析了以最近十年为主的关于可解释性强化学习的相关工作。同时作者也简要地讨论了相关研究领域,并指出了有潜在价值的研究方向。
【论文链接】:https://arxiv.org/pdf/2112.13112.pdf
8. 南京大学发表强化学习可解释性综述
强化学习是一种从试错过程中发现最优行为策略的技术,已经成为解决环境交互问题的通用方法.然而,缺乏可解释性限制了强化学习在安全敏感领域中的应用。为了克服强化学习的这一弱点,涌现了大量强化学习可解释性(Explainable Reinforcement Learning,XRL)的研究。然而,学术界对XRL尚缺乏一致认识。论文《Explainable Reinforcement Learning: Basic Problems Exploration and A Survey》探索XRL的基础性问题,并对现有工作进行综述。首先探讨了父问题——人工智能可解释性,对人工智能可解释性的已有定义进行了汇总;其次,构建了一套可解释性领域的理论体系,从而描述XRL与人工智能可解释性的共同问题,包括界定智能算法和机械算法、定义解释的含义、讨论影响可解释性的因素、划分了解释的直观性;然后,根据强化学习本身的特征,定义了XRL的三个独有问题,即环境解释、任务解释、策略解释;之后,对现有方法进行了系统的归类,并对XRL的最新进展进行综述;最后,展望了XRL领域的潜在研究方向.
【论文链接】:http://www.jos.org.cn/jos/article/abstract/6485
9. 第六届深度强化学习理论与应用研讨会于2022年1月14日-15日举办
由中科院自动化所复杂系统管理与控制国家重点实验室和中国自动化学会主办的第六届深度强化学习理论与应用研讨会于2022年1月14日-15日举办,本次活动由中科院自动化所深度强化学习团队和中国自动化学会数据驱动,控制与优化专业委员会承办。该活动在中科院自动化所线下和网络线上举行。
【通知链接】:https://mp.weixin.qq.com/s/kC9Juw3At-qP2egOHYFZPA
10.Jeff Dean万字长文总结Google AI成果与未来趋势
1月11日, Jeff Dean发表万字长文的年度总结,系统回顾了过去一年来机器学习领域的五大趋势。1.功能更强大、通用的机器学习模型,2.机器学习模型效率持续提升,3.机器学习造福个人和社区,4.机器学习在科学、健康和可持续发展方面的进步,5.对机器学习更深更广的理解。
【相关链接】:https://ai.googleblog.com/2022/01/google-research-themes-from-2021-and.html
联系我们
欢迎关注RLCN公众号,获取RL相关资讯。后台回复:前沿追踪,即可获得往期所有 PDF 版论文列表和相关文献!
Email: rlchinacamp@163.com