RLChina强化学习夏令营

Reinforcement Learning China Summer School

7/27 - 8/08, 2020


Come and Join us! (点击免费报名)

课程安排

课程内容: 从智能感知转变到智能决策,是人工智能发展进程的关键一步。本次在线课程对强化学习与智能科学这一前沿领域进行全面的介绍,从严谨的数学推导,到最新的研究结果和理论。

面向对象: 对智能决策感兴趣的本科生、硕博研究生和行业从业人员;了解机器学习的相关知识;熟悉统计学和概率论基础。

课程设置: 从7月27日开始,周一至周六,连续两周每晚7点到8点40,第一节40分钟课程后休息5分钟,第二节40分钟课程后答疑15分钟。

B站直播链接:https://live.bilibili.com/22386217

AI研习社直播链接:http://www.test.yanxishe.com/events/rlchina2020

伯禹平台录播和学习讨论链接:https://www.boyuai.com/elites/course/78eQw4BeCzLos12d

Date & Time Course Teacher
2020-07-27 19:00-19:10 Openning and Introduction (课件,回放) 汪军
2020-07-27 19:10-20:50 Introduction to Reinforcement Learning and Value-based Methods (课件,回放) 卢宗青
2020-07-28 19:00-20:40 Foundations of Reinforcement Learning (课件,回放) 汪军
2020-07-29 19:00-20:40 Non-Convex Optimisation: Survey & ADAM's Proof (课件,回放) Haitham
2020-07-30 19:00-20:40 Model-based Reinforcement Learning (课件,回放) 张伟楠
2020-07-31 19:00-20:40 Control as Inference (课件,回放) 朱占星
2020-08-01 19:00-20:40 Imitation Learning (课件,回放) 俞扬
2020-08-03 19:00-20:40 Learning with Sparse Rewards (课件,回放) 郝建业
2020-08-04 19:00-20:40 Game Theory Basics (课件,回放) 张海峰
2020-08-05 19:00-20:40 Multi-agent Systems (课件,回放) 安波
2020-08-06 19:00-20:40 Deep Multi-agent Reinforcement Learning(课件,回放) 张崇洁
2020-08-07 19:00-20:40 Advances of Multi-agent Learning(in Gaming AI) (课件,回放) 杨耀东
2020-08-08 19:00-20:40 Mean-field Games and Controls (课件,回放) 徐任远
2020-08-08 20:40-21:10 Panel Discussion (回放) 全体导师

教师介绍

(按姓名字母排序)
teacher boan

安波
新加坡南洋理工大学校长委员会讲席副教授,于2011年在美国麻省大学Amherst分校获计算机科学博士学位。主要研究领域包括人工智能、多智能体系统、算法博弈论、强化学习、及优化。有100余篇论文发表在人工智能领域的国际顶级会议AAMAS、IJCAI、AAAI、ICAPS、KDD、UAI、EC、WWW、ICLR、NeurIPS、ICML以及著名学术期刊JAAMAS和AIJ。曾获2010年IFAAMAS杰出博士论文奖、 2011年美国海岸警卫队的卓越运营奖、2012年AAMAS最佳应用论文奖、2016年IAAI创新应用论文奖,2012年INFORMS Daniel H. Wagner杰出运筹学应用奖,以及2018年南洋青年研究奖等荣誉。受邀在IJCAI'17上做Early Career Spotlight talk。 获得2017年微软合作AI挑战赛的冠军。入选2018年度IEEE Intelligent Systems的“人工智能10大新星”(AI's 10 to Watch)。他是JAIR编委会成员以及JAAMAS, IEEE Intelligent Systems, 和ACM TIST的副主编。他是AAMAS'20的程序委员会主席。点击查看个人主页。


teacher Haitham

Haitham Bou Ammar
Haitham Bou Ammar leads the reinforcement learning at Huawei R&D UK and he also serves as an honorary lecturer at University College London. Prior to joining Huawei, Haitham led the reinforcement learning at PROWLER.io. Previously, Haitham held academic positions as a professor at the American University of Beirut, and a post-doctoral researcher at Princeton University and the University of Pennsylvania. Haitham’s research span various areas in machine learning including reinforcement learning, multi-task learning, optimisation, and Variational Inference.


teacher haojianye

郝建业
华为诺亚方舟决策推理实验室主任,天津大学智能与计算学部副教授,博士生导师。主要研究方向为深度强化学习,多智能体系统。在人工智能领域知名国际会议及期刊发表学术论文100余篇,专著2部。主持参与国家基金委、科技部、天津市人工智能重大等科研项目10余项,研究成果荣获ASE2019、DAI2019最佳论文奖等,同时在游戏AI、广告推荐、自动驾驶、优化控制等领域落地应用。点击查看个人主页。


teacher luzongqing

卢宗青
北京大学计算机科学系“博雅”助理教授。在2017年9月加入北京大学之前,他在美国宾夕法尼亚州立大学计算机系从事博士后工作。他于2014年4月获得了新加坡南洋理工大学计算机博士学位,并获得了东南大学的硕士学位和学士学位。他的主要研究领域包括(多智能体)强化学习、移动/边缘智能系统等。点击查看个人主页。


teacher junwang

汪军
伦敦大学学院(UCL)计算机系教授,阿兰·图灵研究所Turing Fellow,华为诺亚方舟实验室决策推理首席顾问。主要研究智能信息系统,主要包括机器学习、强化学习、多智能体,数据挖掘、计算广告学、推荐系统、等等。已发表了120多篇学术论文,出版两本学术专著,多次获得最佳论文奖。点击查看个人主页。


teacher xureny

徐任远
现任牛津大学(University of Oxford)数学系Hooke Research Fellow,即将于2021年加入南加州大学(USC)工业系统工程系担任助理教授。其主要研究方向为应用概率,随机分析,博弈论与机器学习的交叉领域。徐任远本科毕业于中国科学技术大学数学学院(2014),并于加州大学伯克利分校(UC Berkeley)工业工程系获得博士学位(2019)。点击查看个人主页。


teacher yangyaodong

杨耀东
机器学习研究员,专注于强化学习,多智能体学习,和贝叶斯统计。目前担任华为诺亚方舟实验室多智能体学习技术专家,负责开展多智能体强化学习研究及其在自动驾驶决策中的应用。加入华为之前,他曾担任美国国际集团(AIG)科学组高级经理,带领开发机器学习在金融问题中的应用。杨耀东本科毕业于中国科技大学,硕士毕业于帝国理工大学,博士学习就读于UCL, 目前发表各类学术论文20余篇。2018年,他被英国内政部(Home Office)纳入人工智能杰出人才计划。点击查看个人主页。


teacher yuyang

俞扬
博士,南京大学教授,国家万人计划青年拔尖人才。主要研究领域为机器学习、强化学习。获2013年全国优秀博士学位论文奖、2011年CCF优秀博士学位论文奖。发表论文40余篇,包括多篇Artificial Intelligence、IJCAI、AAAI、NIPS、KDD等,获得4项国际论文奖励和2项国际算法竞赛冠军,入选2018年IEEE Intelligent Systems杂志评选的“国际人工智能10大新星”,获2018亚太数据挖掘"青年成就奖”,受邀在IJCAI’18作关于强化学习的"青年亮点"报告。点击查看个人主页。


teacher zhangchongjie

张崇洁
清华大学交叉信息科学院助理教授,博士生导师,机器智能研究组主任。于2011年在美国麻省大学阿默斯特分校获计算机科学博士学位,而后在美国麻省理工学院从事博士后研究。目前的研究专注于人工智能、深度强化学习、多智能体系统、以及机器人学。点击查看个人主页。


teacher haifengzhang

张海峰
中国科学院自动化研究所副研究员、硕士生导师,领导群体决策智能团队,研究领域包括多智能体强化学习、游戏AI和计算广告等。曾担任北京大学前沿计算研究中心访问学者和伦敦大学学院(UCL)博士后,并分别于2018年和2012年在北京大学获得计算机博士学位和计算机、经济学双学士学位。点击查看个人主页。


teacher wnzhang

张伟楠
上海交通大学电院John中心长聘教轨副教授,研究强化学习领域中的多智能体强化学习、基于模型的强化学习和模仿学习等方向,并致力于将强化学习技术落地到互联网个性化服务、游戏智能、智慧交通、文本生成等应用场景中。张伟楠于2011年在上海交通大学计算机系ACM班获得学士学位,于2016年在伦敦大学学院计算机系获得博士学位。点击查看个人主页。


teacher zhuzhanxing

朱占星
北京大学数学科学学院、大数据科学研究中心助理教授,与北京大学深度学习实验室密切合作。 此前,他从英国爱丁堡大学信息学院获得机器学习博士学位。他的研究领域涵盖机器学习和人工智能的方法论/理论及其在各个领域的应用。点击查看个人主页。

课程内容

0、汪军: Openning and Introduction

1、卢宗青: Introduction to Reinforcement Learning and Value-based Methods
- Introduction to Reinforcement Learning
  - About RL
  - RL problem
  - Markov Decision Processes
- Value-based Methods
  - Dynamic Programming
  - Monte Carlo
  - TD Learning
  - Off-policy Learning
  - DQN and its variants

2、汪军: Foundations of Reinforcement Learning
- Recap (yesterday’s lecture)
  - MDPs
  - Value iterations and policy iterations
  - Tabular Q-Learning
- Policy approaches
  - Markov chains
  - Policy gradient
- Computational learning theory
  - PAC learning concepts
  - Learning bound for finite H
- Theoretical analysis
  - Approximate dynamic programming
  - Performance bounds
  - Sample complexity

3、Haitham: Non-Convex Optimisation: Survey & ADAM's Proof
- Motivation, Functions and Solution Types
  - Applications of optimisation in Machine Learning
  - Convex vs Non-Convex Optimisation Techniques
  - Non-Convex Optimisation Solution Types
- Brief Survey and ADAM Optimiser
  - Zero-Order Techniques
  - First-Order Techniques
  - Second-Order Techniques
- ADAM’s Proof from NeurIPS 2018
  - Proof Strategy
  - Assumptions
  - Loss Function Difference Bound and Stationary Point Convergence

4、张伟楠: Model-based Reinforcement Learning
- Introduction to MBRL from Dyna
- Shooting methods: RS, PETS, POPLIN
- Theoretic bounds and methods: SLBO, MBPO & BMPO
- Backpropagation through paths: SVG and MAAC

5、朱占星: Control as Inference
- Basic of (probabilistic) graphical models (GM)
  - D-separation
  - Variational inference
- Connection between RL and inference in GM
  - A graphical model for control as inference
- Maximum entropy RL and variational inference
- Soft Q-Learning
- Soft Actor-Critic

6、俞扬: Imitation Learning
- Previously
- Supervised Learning & Behavior Cloning
- Generative Adversarial Learning & GAIL
- Advanced Topics
- From Imitating Policies to Imitating Environments

7、郝建业: Learning with Sparse Rewards
- From Sparse to Dense
 - Reward Learning/Shaping
 - Temporal/spatial credit assignment (single-agent/multiagent settings)
 - Task hierarchical decomposition (hierarchical RL)

8、张海峰: Game Theory Basics
- Motivation and Normal-form Game
- Extensive-form Game and Imperfect Information
- Bayesian Game and Incomplete Information
- Nash Equilibrium and Variants
- Theoretical Results of Nash Equilibrium
- Repeated Game and Learning Methods
- Alternate Solution Concepts and Evolutionary Game Theory

9、安波: Multi-agent Systems
- History and Current Status
- Key research areas in MAS
- Recent advances
 - Computer poker
 - Game theory for security
 - Multi-agent RL

10、张崇洁: Deep Multi-agent Reinforcement Learning
- Value-Based Methods
 - Paradigm: Centralized Training and Decentralized Execution
 - Basic methods: VDN, QMIX, QPLEX
 - Theoretical analysis
 - Extensions
- Policy Gradient Methods
 - Paradigm: Centralized Critic and Decentralized Actors
 - Method: Decomposable Off-Policy Policy Gradient (DOP)

11、杨耀东: Advances of Multi-agent Learning(in Gaming AI)
- Multi-agent Learning for Games
 - Motivation of studying games
 - When self-play does not work
 - The landscape of real-world games
 - The necessity of studying meta-games
- Policy Evaluation in Meta-games
 - Elo rating
 - Nash Equilibrium
 - Replicator dynamics
 - α-Rank & α^α-Rank
- Policy Improvement in Meta-games
 - Fictitious play & generalised weaken fictitious play
 - Double oracle & PSRO
 - PSRO-Nash, PSRO-Rectified-Nash, α-PSRO

12、徐任远: Mean-field Games and Controls
- General Mean-Field Games (GMFG)
  - Motivating Example: Ad Auction
  - General N-player Game and GMFG
  - Existence and Uniqueness of GMFG Solution
- GMFG with RL
  - GMF-Q: Q-learning in GMFG
  - Convergence and Complexity of RL
- Learning Mean-Field Controls
  - From MARL to Mean-field Control (MFC)
- Q-learning Algorithm for MFC
  - Algorithm Design
  - Convergence and Complexity Results

13、全体导师: Panel Discussion

联系我们

Email: rlchinacamp@163.com