RLChina RLChina 是由国内外强化学习学者联合发起的民间学术组织，主要活动包括举办强化学习线上公开课、强化学习线上研讨会等，旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。

发布于 2022-08-09 12:39:23

专题报告二：贝叶斯学习

课程学习

皓

浏览 (1942) 点赞 (6) 收藏

米祈睿 2022-08-27 16:46:51 回复

 梅徐胜 2022-08-26 19:26:17

老师，您好，没有录播吗

同学你好！我们稍后会放出录播
梅徐胜 2022-08-26 19:26:17 回复

老师，您好，没有录播吗
米祈睿 2022-08-22 21:06:54 回复

 随风 2022-08-22 17:03:11

请问老师，贝叶斯优化怎样用于HPO，以及贝叶斯网络如何存储数据，谢谢老师！

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
米祈睿 2022-08-22 21:06:19 回复

未未名 2022-08-22 15:02:53

老师您好，贝叶斯强化学习（BRL）在处理参数不确定性导致的风险方面的有何特殊优势？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
米祈睿 2022-08-22 21:05:52 回复

J jx 2022-08-22 15:14:25

老师好，请问如果 BO 的 observation 返回某个分布的采样而不是固定值，应该怎么解决呢？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
Jun Wang 汪军 2022-08-22 17:53:57 回复

 Jun Wang 汪军 2022-08-22 17:52:14

可以看看 Rasul 引用的两篇关于 regret bounds 的证明。

遗憾上界我没看到。有的话告诉我。
Jun Wang 汪军 2022-08-22 17:52:50 回复

 qazcy1983 2022-08-22 17:28:27

老师好！想请问一下，在将 BO 优化的变量是离散值或是离散和连续的混合值时，为何用信赖域方法，这样处理的动机是什么？

有一些启发式的方法。
Jun Wang 汪军 2022-08-22 17:52:14 回复

 愚钝V- 2022-08-22 17:23:37

视频中给出了遗憾下界，请问累加遗憾是个正定函数吗，类似地可以定义遗憾上界吗

可以看看 Rasul 引用的两篇关于 regret bounds 的证明。
qazcy1983 2022-08-22 17:28:27 回复

老师好！想请问一下，在将 BO 优化的变量是离散值或是离散和连续的混合值时，为何用信赖域方法，这样处理的动机是什么？
愚钝V- 2022-08-22 17:23:37 回复

视频中给出了遗憾下界，请问累加遗憾是个正定函数吗，类似地可以定义遗憾上界吗
Jun Wang 汪军 2022-08-22 17:07:35 回复

A AaronZhang 2022-08-21 17:33:37

老师，请问在BO能在不知目标函数时找到最值，这有没有理论支撑？如果搜索的够多，就更容易找到最优解，但这和sample complexity如何平衡？

有。可以看课件。简单的例子会讲到。比较复杂的分析和具体推导见引用文献。
Jun Wang 汪军 2022-08-22 17:04:57 回复

C Calvin 2022-08-21 23:05:54

请问老师贝叶斯优化与RL如何结合呢？可以解决什么类型的问题？

rl 可以理解为多状态的 bo.
Jun Wang 汪军 2022-08-22 17:04:13 回复

C Calvin 2022-08-21 23:05:54

请问老师贝叶斯优化与RL如何结合呢？可以解决什么类型的问题？

超参数优化。
随风 2022-08-22 17:03:11 回复

请问老师，贝叶斯优化怎样用于HPO，以及贝叶斯网络如何存储数据，谢谢老师！
Jun Wang 汪军 2022-08-22 17:03:02 回复

未未名 2022-08-22 15:02:53

老师您好，贝叶斯强化学习（BRL）在处理参数不确定性导致的风险方面的有何特殊优势？

可以对参数分布建模。
Jun Wang 汪军 2022-08-22 17:02:18 回复

J jx 2022-08-22 15:14:25

老师好，请问如果 BO 的 observation 返回某个分布的采样而不是固定值，应该怎么解决呢？

可以允许采样有噪声，因此是对采样点 f(x_i)分布建立模型，如果你问的是这个。直接反馈分布应该等效于这个，我觉得。
Jun Wang 汪军 2022-08-22 16:58:59 回复

 ClaireGl 2022-08-22 16:49:51

如果给 RL 提供的数据越多：(i)这些数据 cover 的分布越广，是不是 performance 就会很好？ ,(ii)数据只是数量多， performance 会不会更好？
怎么提高 data efficiency?

好的 acquisition function 会告诉你怎么样采样，提高数据的利用效率。
ClaireGl 2022-08-22 16:49:51 回复

如果给 RL 提供的数据越多：(i)这些数据 cover 的分布越广，是不是 performance 就会很好？ ,(ii)数据只是数量多， performance 会不会更好？
怎么提高 data efficiency?
J

jx 2022-08-22 15:14:25 回复

老师好，请问如果 BO 的 observation 返回某个分布的采样而不是固定值，应该怎么解决呢？
未

未名 2022-08-22 15:02:53 回复

老师您好，贝叶斯强化学习（BRL）在处理参数不确定性导致的风险方面的有何特殊优势？
随风 2022-08-22 14:52:24 回复

老师您好，如何将贝叶斯优化用于强化学习，以及贝叶斯优化在机器学习解决哪些问题？
C

Calvin 2022-08-21 23:05:54 回复

请问老师贝叶斯优化与RL如何结合呢？可以解决什么类型的问题？
Y

yjzhong 2022-08-21 22:52:52 回复

老师们好，贝叶斯优化是不是基于贝叶斯定理研究优化问题？课前先复习一下贝叶斯定理？
A

AaronZhang 2022-08-21 17:33:37 回复

老师，请问在BO能在不知目标函数时找到最值，这有没有理论支撑？如果搜索的够多，就更容易找到最优解，但这和sample complexity如何平衡？
vinbo 2022-08-12 12:10:29 回复

 张海峰 2022-08-12 10:51:05

不是独立的，三位老师可能有分工，共同讲贝叶斯学习

原来如此。谢谢张老师
张海峰 2022-08-12 10:51:05 回复

 vinbo 2022-08-11 19:10:11

这是三场独立的报告对吧？分别的标题呢？

不是独立的，三位老师可能有分工，共同讲贝叶斯学习
vinbo 2022-08-11 19:10:11 回复

这是三场独立的报告对吧？分别的标题呢？