-
所有的课件都无法下载啦,希望能改进一下
-
老师讲得非常得细致!请问老师:这些搜索算法受否能够一定保证最优?还是说为了搜索效率,可能会牺牲一定的最优性?
感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
-
老师您好!请问在序列决策问题是否都可以写成最优路径问题的形式呢?或者说是否都转化成 Integer programming 的形式呢?
感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
-
老师好
(1)本节课中对抗搜索主要针对的是双方轮流做动作的 game,对于双方同时采取行动的 game,比如 Markov Game,现在有什么好的搜索最优解的算法吗?
(2)本文的算法应该是属于离线搜索算法吧?就是说先离线搜索到最优解,然后再用于博弈。对于 alpha-go,可以满足实时性吗?感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
-
希望能共享实践课的 PPT,以便我们学习
-
感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com
呜呜呜,我也想要书
-
老师讲得非常得细致!请问老师:这些搜索算法受否能够一定保证最优?还是说为了搜索效率,可能会牺牲一定的最优性?
感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com
-
老师您好!请问在序列决策问题是否都可以写成最优路径问题的形式呢?或者说是否都转化成 Integer programming 的形式呢?
感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com
-
老师好
(1)本节课中对抗搜索主要针对的是双方轮流做动作的 game,对于双方同时采取行动的 game,比如 Markov Game,现在有什么好的搜索最优解的算法吗?
(2)本文的算法应该是属于离线搜索算法吧?就是说先离线搜索到最优解,然后再用于博弈。对于 alpha-go,可以满足实时性吗?感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com
-
原始的 MCTS 与 AlphaZero 里的 MCTS 有些不同的地方,可否详细介绍一下呀?
-
也就是说蒙特卡洛树搜索主要是使用了 data-driven 提高了效率,而且用 data 来拟合价值函数的时候,采用线性拟合也是可以的吧?我们这次作业会提供一些训练的人类 data 么?
蒙特卡洛树搜索可以不用任何数据,这里介绍的 AlphaGo 是初代版本,可以看看 AlphaZero
-
也就是说蒙特卡洛树搜索主要是使用了 data-driven 提高了效率,而且用 data 来拟合价值函数的时候,采用线性拟合也是可以的吧?我们这次作业会提供一些训练的人类 data 么?
-
麻烦问下老师,并行 MCTS 和 Alphago 应用的 MCTS 的优势在哪?
-
请问老师,MCTS 和其他强化学习算法的区别和联系有哪些?
-
请问 MCTS 中的 rollout 时什么含义
-
老师好
(1)本节课中对抗搜索主要针对的是双方轮流做动作的 game,对于双方同时采取行动的 game,比如 Markov Game,现在有什么好的搜索最优解的算法吗?
(2)本文的算法应该是属于离线搜索算法吧?就是说先离线搜索到最优解,然后再用于博弈。对于 alpha-go,可以满足实时性吗? -
老师您好,请问有什么能够提升蒙特卡罗树搜索算法效率的技巧呢?
-
评估函数如何设计?
-
这些种博弈搜索算法如果应用在我们及第平台的贪吃蛇 3V3 中,可能会产生较好的效果吗?
-
极大极小算法,能用 maxmini 吗
-
所以 任何 MDP 都是能找到最优解的, 只是求解空间可能会太大?
-
A*的最优性对任何 MDP 都成立吗?
-
一致性和可采纳性没有理解很清楚
- 老师,这样编码的话两个不同坐标的code会不会相同呢
-
老师您好!请问在序列决策问题是否都可以写成最优路径问题的形式呢?或者说是否都转化成 Integer programming 的形式呢?
-
连续空间的离散化一般采用基函数的方法,形成高斯核或者测地线高斯核,但是这个核的选择我没看懂怎么个选法标准,是随机选的么?
-
GitHub 链接赞助发一下,谢谢
-
老师讲得非常得细致!请问老师:这些搜索算法受否能够一定保证最优?还是说为了搜索效率,可能会牺牲一定的最优性?
-
老师您好,感谢分享,请问泛洪填充法中为什么需要把 P(s,a)也 push 进 Q 里?
-
最优性剪枝条件:已进行步数 + 估计未来步数下限 ≥ 当前最优步数,但是这个里面估计未来步数下限不是已经计算出来了后面的未来步数吗?计算量通过什么方式降低呢?
未来步数下限 老师前面举了个例子,比如最短路径里你可以让下限为 0,复杂一点的问题可以考虑用欧氏距离之类的来作估计。
-
最优性剪枝条件:已进行步数 + 估计未来步数下限 ≥ 当前最优步数,但是这个里面估计未来步数下限不是已经计算出来了后面的未来步数吗?计算量通过什么方式降低呢?
-
老师您好,请问对于机械控制这类连续空间的搜索算法中,您认为有哪些比较有效或者比较有前景的算法?
- 老师,请问RLchina交流群是指哪个群?微信?QQ??
-
老师,请问 search-based 的算法 和 Image-based 的算法,您认为哪一种对于真实世界的问题 有更好的适应性?
-
现在 RL 还会用到搜索吗
-
老师,想问一下如果是要学习博弈论的话,学习博弈论的方式应该是如何?怎么样可以进行系统学习
-
想问一下蒙特卡洛树搜索的并行训练应该怎么处理?组间并行可以用多个 actor 表示,但组内并行会影响 E&E 的 trade-off,请问这种情况怎么解决?另外原始的 MCTS 与 AlphaZero 里的 MCTS 有些不同的地方,可否详细介绍一下呀?
-
嗯,这节课的安排好评!
RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
评论(41)
请
登录后发表观点