RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

专题报告二:贝叶斯学习

评论(27)
  • 米祈睿
    米祈睿 回复
    梅徐胜 梅徐胜 2022-08-26 19:26:17

    老师,您好,没有录播吗

    同学你好!我们稍后会放出录播

  • 梅徐胜
    梅徐胜 回复

    老师,您好,没有录播吗

  • 米祈睿
    米祈睿 回复
    随风 随风 2022-08-22 17:03:11
    请问老师,贝叶斯优化怎样用于HPO,以及贝叶斯网络如何存储数据,谢谢老师!

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 米祈睿
    米祈睿 回复
    未名 2022-08-22 15:02:53

    老师您好,贝叶斯强化学习(BRL)在处理参数不确定性导致的风险方面的有何特殊优势?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 米祈睿
    米祈睿 回复
    J jx 2022-08-22 15:14:25

    老师好,请问如果 BO 的 observation 返回某个分布的采样而不是固定值,应该怎么解决呢?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • Jun Wang 汪军
    Jun Wang 汪军 回复
    Jun Wang 汪军 Jun Wang 汪军 2022-08-22 17:52:14

    可以看看 Rasul 引用的两篇关于 regret bounds 的证明。

    遗憾上界我没看到。有的话告诉我。

  • Jun Wang 汪军
    Jun Wang 汪军 回复
    qazcy1983 qazcy1983 2022-08-22 17:28:27

    老师好!想请问一下,在将 BO 优化的变量是离散值或是离散和连续的混合值时,为何用信赖域方法,这样处理的动机是什么?

    有一些启发式的方法。

  • Jun Wang 汪军
    Jun Wang 汪军 回复
    愚钝V- 愚钝V- 2022-08-22 17:23:37

    视频中给出了遗憾下界,请问累加遗憾是个正定函数吗,类似地可以定义遗憾上界吗

    可以看看 Rasul 引用的两篇关于 regret bounds 的证明。

  • qazcy1983
    qazcy1983 回复

    老师好!想请问一下,在将 BO 优化的变量是离散值或是离散和连续的混合值时,为何用信赖域方法,这样处理的动机是什么?

  • 愚钝V-
    愚钝V- 回复

    视频中给出了遗憾下界,请问累加遗憾是个正定函数吗,类似地可以定义遗憾上界吗

  • Jun Wang 汪军
    Jun Wang 汪军 回复
    A AaronZhang 2022-08-21 17:33:37
    老师,请问在BO能在不知目标函数时找到最值,这有没有理论支撑?如果搜索的够多,就更容易找到最优解,但这和sample complexity如何平衡?

    有。可以看课件。简单的例子会讲到。比较复杂的分析和具体推导见引用文献。

  • Jun Wang 汪军
    Jun Wang 汪军 回复
    C Calvin 2022-08-21 23:05:54
    请问老师贝叶斯优化与RL如何结合呢?可以解决什么类型的问题?

    rl 可以理解为多状态的 bo.

  • Jun Wang 汪军
    Jun Wang 汪军 回复
    C Calvin 2022-08-21 23:05:54
    请问老师贝叶斯优化与RL如何结合呢?可以解决什么类型的问题?

    超参数优化。

  • 随风
    随风 回复
    请问老师,贝叶斯优化怎样用于HPO,以及贝叶斯网络如何存储数据,谢谢老师!
  • Jun Wang 汪军
    Jun Wang 汪军 回复
    未名 2022-08-22 15:02:53

    老师您好,贝叶斯强化学习(BRL)在处理参数不确定性导致的风险方面的有何特殊优势?

    可以对参数分布建模。

  • Jun Wang 汪军
    Jun Wang 汪军 回复
    J jx 2022-08-22 15:14:25

    老师好,请问如果 BO 的 observation 返回某个分布的采样而不是固定值,应该怎么解决呢?

    可以允许采样有噪声,因此是对采样点 f(x_i)分布建立模型,如果你问的是这个。直接反馈分布应该等效于这个,我觉得。

  • Jun Wang 汪军
    Jun Wang 汪军 回复
    ClaireGl ClaireGl 2022-08-22 16:49:51

    如果给 RL 提供的数据越多:(i)这些数据 cover 的分布越广,是不是 performance 就会很好? ,(ii)数据只是数量多, performance 会不会更好?
    怎么提高 data efficiency?

    好的 acquisition function 会告诉你怎么样采样,提高数据的利用效率。

  • ClaireGl
    ClaireGl 回复

    如果给 RL 提供的数据越多:(i)这些数据 cover 的分布越广,是不是 performance 就会很好? ,(ii)数据只是数量多, performance 会不会更好?
    怎么提高 data efficiency?

  • jx 回复

    老师好,请问如果 BO 的 observation 返回某个分布的采样而不是固定值,应该怎么解决呢?

  • 未名 回复

    老师您好,贝叶斯强化学习(BRL)在处理参数不确定性导致的风险方面的有何特殊优势?

  • 随风
    随风 回复
    老师您好,如何将贝叶斯优化用于强化学习,以及贝叶斯优化在机器学习解决哪些问题?
  • Calvin 回复
    请问老师贝叶斯优化与RL如何结合呢?可以解决什么类型的问题?
  • yjzhong 回复
    老师们好,贝叶斯优化 是不是基于贝叶斯定理研究优化问题?课前先复习一下贝叶斯定理?
  • AaronZhang 回复
    老师,请问在BO能在不知目标函数时找到最值,这有没有理论支撑?如果搜索的够多,就更容易找到最优解,但这和sample complexity如何平衡?
  • vinbo
    vinbo 回复
    张海峰 张海峰 2022-08-12 10:51:05

    不是独立的,三位老师可能有分工,共同讲贝叶斯学习

    原来如此。谢谢张老师

  • 张海峰
    张海峰 回复
    vinbo vinbo 2022-08-11 19:10:11

    这是三场独立的报告对吧?分别的标题呢?

    不是独立的,三位老师可能有分工,共同讲贝叶斯学习

  • vinbo
    vinbo 回复

    这是三场独立的报告对吧?分别的标题呢?