实践课二：博弈搜索算法 | RLChina 强化学习社区

T

tangoee 2022-09-03 14:30:15 回复

所有的课件都无法下载啦，希望能改进一下

RLChina 2022-08-18 22:24:19 回复

竹竹篱笆 2022-08-16 15:28:50

老师讲得非常得细致！请问老师：这些搜索算法受否能够一定保证最优？还是说为了搜索效率，可能会牺牲一定的最优性？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

RLChina 2022-08-18 22:22:54 回复

E Elwen 2022-08-16 15:38:07

老师您好！请问在序列决策问题是否都可以写成最优路径问题的形式呢？或者说是否都转化成 Integer programming 的形式呢？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

RLChina 2022-08-18 22:22:31 回复

Mr_wang 2022-08-16 17:14:21

老师好
（1）本节课中对抗搜索主要针对的是双方轮流做动作的 game，对于双方同时采取行动的 game，比如 Markov Game，现在有什么好的搜索最优解的算法吗？
（2）本文的算法应该是属于离线搜索算法吧？就是说先离线搜索到最优解，然后再用于博弈。对于 alpha-go，可以满足实时性吗？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

天人合一 2022-08-17 10:47:45 回复

希望能共享实践课的 PPT，以便我们学习

X

xyfc 2022-08-16 17:41:45 回复

自动化所金宣法 2022-08-16 17:38:18

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

呜呜呜，我也想要书

X

xyfc 2022-08-16 17:39:10 回复

悟悟空 2022-08-16 17:20:26

麻烦问下老师，并行 MCTS 和 Alphago 应用的 MCTS 的优势在哪？

AlphaGo 里的就是并行的

自动化所金宣法 2022-08-16 17:38:18 回复

竹竹篱笆 2022-08-16 15:28:50

老师讲得非常得细致！请问老师：这些搜索算法受否能够一定保证最优？还是说为了搜索效率，可能会牺牲一定的最优性？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

自动化所金宣法 2022-08-16 17:37:30 回复

E Elwen 2022-08-16 15:38:07

老师您好！请问在序列决策问题是否都可以写成最优路径问题的形式呢？或者说是否都转化成 Integer programming 的形式呢？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

自动化所金宣法 2022-08-16 17:36:16 回复

Mr_wang 2022-08-16 17:14:21

老师好
（1）本节课中对抗搜索主要针对的是双方轮流做动作的 game，对于双方同时采取行动的 game，比如 Markov Game，现在有什么好的搜索最优解的算法吗？
（2）本文的算法应该是属于离线搜索算法吧？就是说先离线搜索到最优解，然后再用于博弈。对于 alpha-go，可以满足实时性吗？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

X

xyfc 2022-08-16 17:28:56 回复

原始的 MCTS 与 AlphaZero 里的 MCTS 有些不同的地方，可否详细介绍一下呀？

X

xyfc 2022-08-16 17:27:49 回复

Jasmine 2022-08-16 17:24:20

也就是说蒙特卡洛树搜索主要是使用了 data-driven 提高了效率，而且用 data 来拟合价值函数的时候，采用线性拟合也是可以的吧？我们这次作业会提供一些训练的人类 data 么？

蒙特卡洛树搜索可以不用任何数据，这里介绍的 AlphaGo 是初代版本，可以看看 AlphaZero

Jasmine 2022-08-16 17:24:20 回复

也就是说蒙特卡洛树搜索主要是使用了 data-driven 提高了效率，而且用 data 来拟合价值函数的时候，采用线性拟合也是可以的吧？我们这次作业会提供一些训练的人类 data 么？

悟

悟空 2022-08-16 17:20:26 回复

麻烦问下老师，并行 MCTS 和 Alphago 应用的 MCTS 的优势在哪？

S

shakefool 2022-08-16 17:17:42 回复

请问老师，MCTS 和其他强化学习算法的区别和联系有哪些？

R

ruirui 2022-08-16 17:15:59 回复

请问 MCTS 中的 rollout 时什么含义

Mr_wang 2022-08-16 17:14:21 回复

老师好
（1）本节课中对抗搜索主要针对的是双方轮流做动作的 game，对于双方同时采取行动的 game，比如 Markov Game，现在有什么好的搜索最优解的算法吗？
（2）本文的算法应该是属于离线搜索算法吧？就是说先离线搜索到最优解，然后再用于博弈。对于 alpha-go，可以满足实时性吗？

Chatbot 2022-08-16 17:07:27 回复

老师您好，请问有什么能够提升蒙特卡罗树搜索算法效率的技巧呢？

自动化所金宣法 2022-08-16 17:04:55 回复

X xyfc 2022-08-15 11:27:45

想问一下蒙特卡洛树搜索的并行训练应该怎么处理？组间并行可以用多个 actor 表示，但组内并行会影响 E&E 的 trade-off，请问这种情况怎么解决？另外原始的 MCTS 与 AlphaZero 里的 MCTS 有些不同的地方，可否详细介绍一下呀？

待会可以帮你问一下

X

xyfc 2022-08-16 16:46:18 回复

评估函数如何设计？

阿

阿迪阿迪小阿迪 2022-08-16 16:37:40 回复

这些种博弈搜索算法如果应用在我们及第平台的贪吃蛇 3V3 中，可能会产生较好的效果吗？

W

wzc 2022-08-16 16:30:37 回复

极大极小算法，能用 maxmini 吗

J

jm 2022-08-16 16:24:22 回复