RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

实践课二:博弈搜索算法

评论(41)
  • tangoee 回复

    所有的课件都无法下载啦,希望能改进一下

  • RLChina
    RLChina 回复
    竹篱笆 2022-08-16 15:28:50

    老师讲得非常得细致!请问老师:这些搜索算法受否能够一定保证最优?还是说为了搜索效率,可能会牺牲一定的最优性?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • RLChina
    RLChina 回复
    E Elwen 2022-08-16 15:38:07

    老师您好!请问在序列决策问题是否都可以写成最优路径问题的形式呢?或者说是否都转化成 Integer programming 的形式呢?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • RLChina
    RLChina 回复
    Mr_wang Mr_wang 2022-08-16 17:14:21

    老师好
    (1)本节课中对抗搜索主要针对的是双方轮流做动作的 game,对于双方同时采取行动的 game,比如 Markov Game,现在有什么好的搜索最优解的算法吗?
    (2)本文的算法应该是属于离线搜索算法吧?就是说先离线搜索到最优解,然后再用于博弈。对于 alpha-go,可以满足实时性吗?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 天人合一
    天人合一 回复

    希望能共享实践课的 PPT,以便我们学习

  • xyfc 回复
    自动化所金宣法 自动化所金宣法 2022-08-16 17:38:18

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

    呜呜呜,我也想要书

  • xyfc 回复
    悟空 2022-08-16 17:20:26

    麻烦问下老师,并行 MCTS 和 Alphago 应用的 MCTS 的优势在哪?

    AlphaGo 里的就是并行的

  • 自动化所金宣法
    自动化所金宣法 回复
    竹篱笆 2022-08-16 15:28:50

    老师讲得非常得细致!请问老师:这些搜索算法受否能够一定保证最优?还是说为了搜索效率,可能会牺牲一定的最优性?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 自动化所金宣法
    自动化所金宣法 回复
    E Elwen 2022-08-16 15:38:07

    老师您好!请问在序列决策问题是否都可以写成最优路径问题的形式呢?或者说是否都转化成 Integer programming 的形式呢?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 自动化所金宣法
    自动化所金宣法 回复
    Mr_wang Mr_wang 2022-08-16 17:14:21

    老师好
    (1)本节课中对抗搜索主要针对的是双方轮流做动作的 game,对于双方同时采取行动的 game,比如 Markov Game,现在有什么好的搜索最优解的算法吗?
    (2)本文的算法应该是属于离线搜索算法吧?就是说先离线搜索到最优解,然后再用于博弈。对于 alpha-go,可以满足实时性吗?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • xyfc 回复

    原始的 MCTS 与 AlphaZero 里的 MCTS 有些不同的地方,可否详细介绍一下呀?

  • xyfc 回复
    Jasmine Jasmine 2022-08-16 17:24:20

    也就是说蒙特卡洛树搜索主要是使用了 data-driven 提高了效率,而且用 data 来拟合价值函数的时候,采用线性拟合也是可以的吧?我们这次作业会提供一些训练的人类 data 么?

    蒙特卡洛树搜索可以不用任何数据,这里介绍的 AlphaGo 是初代版本,可以看看 AlphaZero

  • Jasmine
    Jasmine 回复

    也就是说蒙特卡洛树搜索主要是使用了 data-driven 提高了效率,而且用 data 来拟合价值函数的时候,采用线性拟合也是可以的吧?我们这次作业会提供一些训练的人类 data 么?

  • 悟空 回复

    麻烦问下老师,并行 MCTS 和 Alphago 应用的 MCTS 的优势在哪?

  • shakefool 回复

    请问老师,MCTS 和其他强化学习算法的区别和联系有哪些?

  • ruirui 回复

    请问 MCTS 中的 rollout 时什么含义

  • Mr_wang
    Mr_wang 回复

    老师好
    (1)本节课中对抗搜索主要针对的是双方轮流做动作的 game,对于双方同时采取行动的 game,比如 Markov Game,现在有什么好的搜索最优解的算法吗?
    (2)本文的算法应该是属于离线搜索算法吧?就是说先离线搜索到最优解,然后再用于博弈。对于 alpha-go,可以满足实时性吗?

  • Chatbot
    Chatbot 回复

    老师您好,请问有什么能够提升蒙特卡罗树搜索算法效率的技巧呢?

  • 自动化所金宣法
    自动化所金宣法 回复
    X xyfc 2022-08-15 11:27:45

    想问一下蒙特卡洛树搜索的并行训练应该怎么处理?组间并行可以用多个 actor 表示,但组内并行会影响 E&E 的 trade-off,请问这种情况怎么解决?另外原始的 MCTS 与 AlphaZero 里的 MCTS 有些不同的地方,可否详细介绍一下呀?

    待会可以帮你问一下

  • xyfc 回复

    评估函数如何设计?

  • 阿迪阿迪小阿迪 回复

    这些种博弈搜索算法如果应用在我们及第平台的贪吃蛇 3V3 中,可能会产生较好的效果吗?

  • wzc 回复

    极大极小算法,能用 maxmini 吗

  • jm 回复

    所以 任何 MDP 都是能找到最优解的, 只是求解空间可能会太大?

  • jm 回复

    A*的最优性对任何 MDP 都成立吗?

  • mcvoay 回复

    一致性和可采纳性没有理解很清楚

  • 爱学习的好好好 回复
    老师,这样编码的话两个不同坐标的code会不会相同呢
  • Elwen 回复

    老师您好!请问在序列决策问题是否都可以写成最优路径问题的形式呢?或者说是否都转化成 Integer programming 的形式呢?

  • Jasmine
    Jasmine 回复

    连续空间的离散化一般采用基函数的方法,形成高斯核或者测地线高斯核,但是这个核的选择我没看懂怎么个选法标准,是随机选的么?

  • 天人合一
    天人合一 回复

    GitHub 链接赞助发一下,谢谢

  • 竹篱笆 回复

    老师讲得非常得细致!请问老师:这些搜索算法受否能够一定保证最优?还是说为了搜索效率,可能会牺牲一定的最优性?

  • dd
    dd 回复

    老师您好,感谢分享,请问泛洪填充法中为什么需要把 P(s,a)也 push 进 Q 里?

  • hershel
    hershel 回复
    ASS ASS 2022-08-16 15:15:13

    最优性剪枝条件:已进行步数 + 估计未来步数下限 ≥ 当前最优步数,但是这个里面估计未来步数下限不是已经计算出来了后面的未来步数吗?计算量通过什么方式降低呢?

    未来步数下限 老师前面举了个例子,比如最短路径里你可以让下限为 0,复杂一点的问题可以考虑用欧氏距离之类的来作估计。

  • ASS
    ASS 回复

    最优性剪枝条件:已进行步数 + 估计未来步数下限 ≥ 当前最优步数,但是这个里面估计未来步数下限不是已经计算出来了后面的未来步数吗?计算量通过什么方式降低呢?

  • 未名 回复

    老师您好,请问对于机械控制这类连续空间的搜索算法中,您认为有哪些比较有效或者比较有前景的算法?

  • 自动化所金宣法
    自动化所金宣法 回复
    A amiqiu 2022-08-16 14:52:31
    老师,请问RLchina交流群是指哪个群?微信?QQ??

    是 QQ 群,RLChina 交流群,群号 617876602

  • amiqiu 回复
    老师,请问RLchina交流群是指哪个群?微信?QQ??
  • jackluoluo 回复

    老师,请问 search-based 的算法 和 Image-based 的算法,您认为哪一种对于真实世界的问题 有更好的适应性?

  • dycalo
    dycalo 回复

    现在 RL 还会用到搜索吗

  • 无你想你 回复

    老师,想问一下如果是要学习博弈论的话,学习博弈论的方式应该是如何?怎么样可以进行系统学习

  • xyfc 回复

    想问一下蒙特卡洛树搜索的并行训练应该怎么处理?组间并行可以用多个 actor 表示,但组内并行会影响 E&E 的 trade-off,请问这种情况怎么解决?另外原始的 MCTS 与 AlphaZero 里的 MCTS 有些不同的地方,可否详细介绍一下呀?

  • vinbo
    vinbo 回复

    嗯,这节课的安排好评!