西安交通大学智能感知与决策研究中心
发布于

RLChina 论文研讨会第5期(2021.12.21直播)


## 导读 论文研讨会是RLChina举办的学术活动,由RL领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第5期论文讨论会将由西安交通大学博士生王小强主持,清华大学博士生王鉴浩,西安交通大学博士生沈之浩,西安交通大学硕士生于钊为大家分享最新的研究工作,欢迎大家参与。 互动方式:**在本帖留言,可与报告嘉宾互动。** ## 简介 ### 主题 RLChina 论文研讨会第5期 ### 时间 2021年12月21日 19:00-20:00 ### 网址 B站RLChina直播间 [http://live.bilibili.com/22386217](http://live.bilibili.com/22386217) 腾讯会议:429 8178 1830 ### 报告人 王鉴浩 清华大学博士生 沈之浩 西安交通大学博士生 于钊 西安交通大学硕士生 ### 主持人 王小强 西安交通大学博士生 ### 获取论文 [下载论文](https://gitee.com/rlchina/paper-discussion/attach_files/922171/download) ### 获取报告人PPT [下载PPT](https://gitee.com/rlchina/paper-discussion/attach_files/922170/download) ### 报告回放 <iframe src="//player.bilibili.com/player.html?aid=765090747&bvid=BV1Nr4y1S7cE&cid=466340796&page=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true" width="600" height="450"> </iframe> <iframe src="//player.bilibili.com/player.html?aid=765106423&bvid=BV1Jr4y1S7pq&cid=466349761&page=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true" width="600" height="450"> </iframe> <iframe src="//player.bilibili.com/player.html?aid=210078783&bvid=BV1ha41167om&cid=466350897&page=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true" width="600" height="450"> </iframe> ____ ### 第一场 19:00-19:20 #### 报告人:王鉴浩 <img src="https://rlchian-bbs.oss-cn-beijing.aliyuncs.com/images/2021/12/13/0fd3b0121fbf7fad728190c8275b9744.jfif" width = "150" alt="图片名称" align=center /> #### 报告人简介 王鉴浩,清华大学交叉信息研究院在读博士,研究方向为强化学习。 #### 报告标题 协作多智能体学习理论的初步探索 #### 报告摘要 在合作多智能体强化学习中,基于价值函数分解的优化算法是一种流行且有前景的方法。然而,目前对这些方法的理论理解是有限的。在本文中,我们提出一个理论框架来分析此类优化算法。基于该框架,我们研究了线性价值函数分解的算法并揭示了此种优化方法隐式实现了强大的反事实信用分配。然而,在某些情况下基于线性价值函数分解的算法可能不会收敛。 通过进一步分析,我们发现在在线策略数据分布或更丰富的价值函数类可以分别提高其局部或全局收敛特性。最后,为了支持在实际实现中的理论意义,我们对最先进的深度多智能体优化算法在教学示例和星际争霸II单元微管理任务基线中进行了实证分析。 #### 发表信息 Jianhao Wang, et al. "Towards Understanding Cooperative Multi-Agent Q-Learning with Value Factorization". NeurIPS 2021. ([https://arxiv.org/abs/2006.00587](https://arxiv.org/abs/2006.00587)) ____ ### 第二场 19:20-19:40 #### 报告人:沈之浩 <img src="https://rlchian-bbs.oss-cn-beijing.aliyuncs.com/images/2021/12/13/7d7fb53e291ddb547f9de9be68be7825.jfif" width = "150" alt="图片名称" align=center /> #### 报告人简介 沈之浩,西安交通大学电信学部自动化科学与技术学院在读博士生,研究方向为强化学习、行为计算等,在IEEE TMC、ACM MobiCom、ACM SenSys等期刊或会议上发表论文。 #### 报告标题 DeepAPP: A Deep Reinforcement Learning Framework for Mobile Application Usage Prediction #### 报告摘要 准确预测用户可能打开的手机应用程序对于节省智能手机能源消耗和提升用户使用体验至关重要。然而,传统的预测方法往往只关注预测下一个使用的手机应用,而忽略手机应用的启动时间。本研究探索预测下一个时间段内用户可能使用的手机应用。为了应对一个时间段内用户可能使用多个应用导致预测空间快速增长的问题,我们提出一种基于深度强化学习的手机使用行为预测系统,名为DeepAPP。同时,为了有效地将深度强化学习技术应用于DeepAPP中,我们还提出了一种新颖的手机使用上下文的表征方法、一个快速预测的个性化预测模型、一个解决用户手机使用数据稀疏性问题的通用预测模型。最后,我们通过一个离线大规模匿名手机应用使用行为数据集和一个真实环境下的实地实验证明提出的DeepAPP系统具有较高的预测准确率和快速的预测时间。 #### 发表信息 Shen, Z., Yang, K., Xi, Z., Zou, J., & Du, W. "DeepAPP: A Deep Reinforcement Learning Framework for Mobile Application Usage Prediction". IEEE Transactions on Mobile Computing, 2021. ([https://dl.acm.org/doi/pdf/10.1145/3356250.3360038](https://dl.acm.org/doi/pdf/10.1145/3356250.3360038)) ___ ### 第三场 19:40-20:00 #### 报告人: 于钊 <img src="https://rlchian-bbs.oss-cn-beijing.aliyuncs.com/images/2021/12/13/f75ad061dcdd87606727895cb733049c.jfif" width = "150" alt="图片名称" align=center /> #### 报告人简介 于钊,西安交通大学智能感知与决策研究中心硕士生,研究方向为强化学习和非完备信息博弈。 #### 报告标题 DREAM:具有优势基线和无模型学习的深度遗憾最小化(DREAM: Deep Regret Minimization with Advantage Baselines and Model-free Learning) #### 报告摘要 在两人零和非完备信息博弈中,反事实遗憾最小化取得了最好的性能表现。然而,为了在大型游戏中运用表格CFR(counterfactual regret minimization反事实虚拟遗憾最小化)来进行纳什均衡的求解,需要对状态和动作进行特定领域的抽象。虽然这些抽象在扑克牌领域获得了很大的成功,但由于状态抽象需要特定的领域知识,很难扩展到其他游戏中。深度神经网络的估计和归纳推动了CFR的发展,取代了对于专家知识的依赖。然而,现存的神经网络CFR算法只有在有完美博弈模型的情况下才能表现良好,而在单采样(即无模型)的环境下的方差很大。在本文中,我们介绍DREAM,一个不需要博弈模拟器的神经网络CFR算法。能够收敛到 $\epsilon$ 纳什均衡并且性能可以和目前最好的有模型算法相媲美。 #### 发表信息 Steinberger, Eric, et al. "DREAM: Deep Regret minimization with Advantage baselines and Model-free learning." AAAI 2021. ([https://arxiv.org/pdf/2006.10410.pdf](https://arxiv.org/pdf/2006.10410.pdf)) ____ ## 联系我们 Email: rlchinacamp@163.com ![](https://jidi-images.oss-cn-beijing.aliyuncs.com/rlchina2021/rlcn.jpeg?x-oss-process=image%2Fresize%2Cl_200)

导读

论文研讨会是RLChina举办的学术活动,由RL领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。

第5期论文讨论会将由西安交通大学博士生王小强主持,清华大学博士生王鉴浩,西安交通大学博士生沈之浩,西安交通大学硕士生于钊为大家分享最新的研究工作,欢迎大家参与。

互动方式:在本帖留言,可与报告嘉宾互动。

简介

主题

RLChina 论文研讨会第5期

时间

2021年12月21日 19:00-20:00

网址

B站RLChina直播间 http://live.bilibili.com/22386217
腾讯会议:429 8178 1830

报告人

王鉴浩 清华大学博士生
沈之浩 西安交通大学博士生
于钊 西安交通大学硕士生

主持人

王小强 西安交通大学博士生

获取论文

下载论文

获取报告人PPT

下载PPT

报告回放


第一场 19:00-19:20

报告人:王鉴浩

图片名称

报告人简介

王鉴浩,清华大学交叉信息研究院在读博士,研究方向为强化学习。

报告标题

协作多智能体学习理论的初步探索

报告摘要

在合作多智能体强化学习中,基于价值函数分解的优化算法是一种流行且有前景的方法。然而,目前对这些方法的理论理解是有限的。在本文中,我们提出一个理论框架来分析此类优化算法。基于该框架,我们研究了线性价值函数分解的算法并揭示了此种优化方法隐式实现了强大的反事实信用分配。然而,在某些情况下基于线性价值函数分解的算法可能不会收敛。 通过进一步分析,我们发现在在线策略数据分布或更丰富的价值函数类可以分别提高其局部或全局收敛特性。最后,为了支持在实际实现中的理论意义,我们对最先进的深度多智能体优化算法在教学示例和星际争霸II单元微管理任务基线中进行了实证分析。

发表信息

Jianhao Wang, et al. “Towards Understanding Cooperative Multi-Agent Q-Learning with Value Factorization”. NeurIPS 2021. (https://arxiv.org/abs/2006.00587)


第二场 19:20-19:40

报告人:沈之浩

图片名称

报告人简介

沈之浩,西安交通大学电信学部自动化科学与技术学院在读博士生,研究方向为强化学习、行为计算等,在IEEE TMC、ACM MobiCom、ACM SenSys等期刊或会议上发表论文。

报告标题

DeepAPP: A Deep Reinforcement Learning Framework for Mobile Application Usage Prediction

报告摘要

准确预测用户可能打开的手机应用程序对于节省智能手机能源消耗和提升用户使用体验至关重要。然而,传统的预测方法往往只关注预测下一个使用的手机应用,而忽略手机应用的启动时间。本研究探索预测下一个时间段内用户可能使用的手机应用。为了应对一个时间段内用户可能使用多个应用导致预测空间快速增长的问题,我们提出一种基于深度强化学习的手机使用行为预测系统,名为DeepAPP。同时,为了有效地将深度强化学习技术应用于DeepAPP中,我们还提出了一种新颖的手机使用上下文的表征方法、一个快速预测的个性化预测模型、一个解决用户手机使用数据稀疏性问题的通用预测模型。最后,我们通过一个离线大规模匿名手机应用使用行为数据集和一个真实环境下的实地实验证明提出的DeepAPP系统具有较高的预测准确率和快速的预测时间。

发表信息

Shen, Z., Yang, K., Xi, Z., Zou, J., & Du, W. “DeepAPP: A Deep Reinforcement Learning Framework for Mobile Application Usage Prediction”. IEEE Transactions on Mobile Computing, 2021. (https://dl.acm.org/doi/pdf/10.1145/3356250.3360038)


第三场 19:40-20:00

报告人: 于钊

图片名称

报告人简介

于钊,西安交通大学智能感知与决策研究中心硕士生,研究方向为强化学习和非完备信息博弈。

报告标题

DREAM:具有优势基线和无模型学习的深度遗憾最小化(DREAM: Deep Regret Minimization with Advantage Baselines and Model-free Learning)

报告摘要

在两人零和非完备信息博弈中,反事实遗憾最小化取得了最好的性能表现。然而,为了在大型游戏中运用表格CFR(counterfactual regret minimization反事实虚拟遗憾最小化)来进行纳什均衡的求解,需要对状态和动作进行特定领域的抽象。虽然这些抽象在扑克牌领域获得了很大的成功,但由于状态抽象需要特定的领域知识,很难扩展到其他游戏中。深度神经网络的估计和归纳推动了CFR的发展,取代了对于专家知识的依赖。然而,现存的神经网络CFR算法只有在有完美博弈模型的情况下才能表现良好,而在单采样(即无模型)的环境下的方差很大。在本文中,我们介绍DREAM,一个不需要博弈模拟器的神经网络CFR算法。能够收敛到 ϵ\epsilon 纳什均衡并且性能可以和目前最好的有模型算法相媲美。

发表信息

Steinberger, Eric, et al. “DREAM: Deep Regret minimization with Advantage baselines and Model-free learning.” AAAI 2021. (https://arxiv.org/pdf/2006.10410.pdf)


联系我们

Email: rlchinacamp@163.com

导读

论文研讨会是RLChina举办的学术活动,由RL领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。

第5期论文讨论会将由西安交通大学博士生王小强主持,清华大学博士生王鉴浩,西安交通大学博士生沈之浩,西安交通大学硕士生于钊为大家分享最新的研究工作,欢迎大家参与。

互动方式:在本帖留言,可与报告嘉宾互动。

简介

主题

RLChina 论文研讨会第5期

时间

2021年12月21日 19:00-20:00

网址

B站RLChina直播间 http://live.bilibili.com/22386217
腾讯会议:429 8178 1830

报告人

王鉴浩 清华大学博士生
沈之浩 西安交通大学博士生
于钊 西安交通大学硕士生

主持人

王小强 西安交通大学博士生

获取论文

下载论文

获取报告人PPT

下载PPT

报告回放


第一场 19:00-19:20

报告人:王鉴浩

图片名称

报告人简介

王鉴浩,清华大学交叉信息研究院在读博士,研究方向为强化学习。

报告标题

协作多智能体学习理论的初步探索

报告摘要

在合作多智能体强化学习中,基于价值函数分解的优化算法是一种流行且有前景的方法。然而,目前对这些方法的理论理解是有限的。在本文中,我们提出一个理论框架来分析此类优化算法。基于该框架,我们研究了线性价值函数分解的算法并揭示了此种优化方法隐式实现了强大的反事实信用分配。然而,在某些情况下基于线性价值函数分解的算法可能不会收敛。 通过进一步分析,我们发现在在线策略数据分布或更丰富的价值函数类可以分别提高其局部或全局收敛特性。最后,为了支持在实际实现中的理论意义,我们对最先进的深度多智能体优化算法在教学示例和星际争霸II单元微管理任务基线中进行了实证分析。

发表信息

Jianhao Wang, et al. “Towards Understanding Cooperative Multi-Agent Q-Learning with Value Factorization”. NeurIPS 2021. (https://arxiv.org/abs/2006.00587)


第二场 19:20-19:40

报告人:沈之浩

图片名称

报告人简介

沈之浩,西安交通大学电信学部自动化科学与技术学院在读博士生,研究方向为强化学习、行为计算等,在IEEE TMC、ACM MobiCom、ACM SenSys等期刊或会议上发表论文。

报告标题

DeepAPP: A Deep Reinforcement Learning Framework for Mobile Application Usage Prediction

报告摘要

准确预测用户可能打开的手机应用程序对于节省智能手机能源消耗和提升用户使用体验至关重要。然而,传统的预测方法往往只关注预测下一个使用的手机应用,而忽略手机应用的启动时间。本研究探索预测下一个时间段内用户可能使用的手机应用。为了应对一个时间段内用户可能使用多个应用导致预测空间快速增长的问题,我们提出一种基于深度强化学习的手机使用行为预测系统,名为DeepAPP。同时,为了有效地将深度强化学习技术应用于DeepAPP中,我们还提出了一种新颖的手机使用上下文的表征方法、一个快速预测的个性化预测模型、一个解决用户手机使用数据稀疏性问题的通用预测模型。最后,我们通过一个离线大规模匿名手机应用使用行为数据集和一个真实环境下的实地实验证明提出的DeepAPP系统具有较高的预测准确率和快速的预测时间。

发表信息

Shen, Z., Yang, K., Xi, Z., Zou, J., & Du, W. “DeepAPP: A Deep Reinforcement Learning Framework for Mobile Application Usage Prediction”. IEEE Transactions on Mobile Computing, 2021. (https://dl.acm.org/doi/pdf/10.1145/3356250.3360038)


第三场 19:40-20:00

报告人: 于钊

图片名称

报告人简介

于钊,西安交通大学智能感知与决策研究中心硕士生,研究方向为强化学习和非完备信息博弈。

报告标题

DREAM:具有优势基线和无模型学习的深度遗憾最小化(DREAM: Deep Regret Minimization with Advantage Baselines and Model-free Learning)

报告摘要

在两人零和非完备信息博弈中,反事实遗憾最小化取得了最好的性能表现。然而,为了在大型游戏中运用表格CFR(counterfactual regret minimization反事实虚拟遗憾最小化)来进行纳什均衡的求解,需要对状态和动作进行特定领域的抽象。虽然这些抽象在扑克牌领域获得了很大的成功,但由于状态抽象需要特定的领域知识,很难扩展到其他游戏中。深度神经网络的估计和归纳推动了CFR的发展,取代了对于专家知识的依赖。然而,现存的神经网络CFR算法只有在有完美博弈模型的情况下才能表现良好,而在单采样(即无模型)的环境下的方差很大。在本文中,我们介绍DREAM,一个不需要博弈模拟器的神经网络CFR算法。能够收敛到 ϵ\epsilon 纳什均衡并且性能可以和目前最好的有模型算法相媲美。

发表信息

Steinberger, Eric, et al. “DREAM: Deep Regret minimization with Advantage baselines and Model-free learning.” AAAI 2021. (https://arxiv.org/pdf/2006.10410.pdf)


联系我们

Email: rlchinacamp@163.com

评论