理论课二：博弈论基础 | RLChina 强化学习社区

siqi 2022-08-24 14:41:10 回复

老师您好，请问 extensive-form game 中，player2 的决策点与 player1 不一致，为什么依然会产生效益？如下图中：player1 选择 right，player2 选择(left,right)

RLChina 2022-08-18 22:17:59 回复

xiaozhitongxue 2022-08-16 10:52:14

老师您好，请问涉及到混合策略和贝叶斯博弈这类问题，玩家在制定策略的时候都是要让期望最高吗，考不考虑风险（方差）呢？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

RLChina 2022-08-18 22:17:11 回复

上善若水 2022-08-16 11:31:31

张老师您好，我是广西科技大学的一名计算机硕士研究生，十分感谢您的课程讲解，我想咨询一下，在多智能体深度强化学习控制决策领域里，我们的博弈论相关理论是如何支撑或结合强化学习方法？怎么以博弈论的理论指导多智能体深度强化学习方法的应用和发展的？再次表示对您讲解的感谢。

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

RLChina 2022-08-18 22:16:31 回复

君君子慎独 2022-08-16 11:43:45

老师，您好，感觉您讲得很细致，娓娓道来。首次听到了 Nash 均衡的证明过程。我有个问题是在多组（就说两个组吧）作战对抗中，每个组有多个成员，同组内的成员相互合作，不同组的成员对抗，这个问题是一个动态博弈的问题，请问下老师这个问题中阶段怎么划分合适？（用一个成员被另一组的成员打败后，则该成员对应的状态发生改变，则作战进入下一个阶段，这样划分合适吗？）第二个问题是，我看到一些论文中把多智能体强化学习用到作战对抗问题中，那做仿真的时候一般采用什么仿真平台呢？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

张海峰 2022-08-16 22:14:13 回复

无无你想你 2022-08-16 11:46:05

老师，我特别想问一个问题，就是在博弈当中，这个稳态是只有一个吗，因为刚刚在讲的时候，我发现好像对多个稳态的分析我没太听明白

一个博弈可以存在多个纳什均衡的，这也是协同博弈讨论的问题。

张海峰 2022-08-16 22:13:11 回复

Y yasuo 2022-08-16 11:58:16

假设不是每个人都是理性自私的吗？为什么 core 比纳什均衡稳定？

core 的稳定在于它保证了任意一个“团体”都没有同时改变策略的动力，纳什均衡只保证任意的“个人”没有改变策略的动力。团体是包含个人的，所以某种意义上 core 的稳定性强一些。

张海峰 2022-08-16 22:09:39 回复

F fanner 2022-08-16 08:53:14

老师，您好！博弈过程中所要达到的均衡类型是怎么判断的？每种类型的博弈有特定的均衡吗（比如非合作博弈下的纳什均衡）？还是需要具体问题具体分析，根据问题本身和问题结果判断均衡的类型？您目前接触到的博弈均衡有哪些？都有什么特点呢？

一般每种类型的博弈会有对应的均衡概念，但本质都是不动点，大同小异的

上善若水 2022-08-16 12:39:30 回复

自动化所金宣法 2022-08-16 12:30:39

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

十分感谢！感谢老师的精彩讲解！也感谢平台为我们提供的学习和交流的机会！

自动化所金宣法 2022-08-16 12:33:34 回复

xiaozhitongxue 2022-08-16 10:52:14

老师您好，请问涉及到混合策略和贝叶斯博弈这类问题，玩家在制定策略的时候都是要让期望最高吗，考不考虑风险（方差）呢？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

自动化所金宣法 2022-08-16 12:30:39 回复

上善若水 2022-08-16 11:31:31

张老师您好，我是广西科技大学的一名计算机硕士研究生，十分感谢您的课程讲解，我想咨询一下，在多智能体深度强化学习控制决策领域里，我们的博弈论相关理论是如何支撑或结合强化学习方法？怎么以博弈论的理论指导多智能体深度强化学习方法的应用和发展的？再次表示对您讲解的感谢。

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

vinbo 2022-08-16 12:29:59 回复

Y yasuo 2022-08-16 11:58:08

老师帕累托均衡和纳什均衡的区别是什么，尤其是帕累托，我不是很懂，为什么三个(2,2),(3,0),(0,3)都是帕累托均衡？而不是只有(3,0),(0,3)?

看懂定义即可。这俩基本没啥关系。

自动化所金宣法 2022-08-16 12:28:49 回复

君君子慎独 2022-08-16 11:43:45

老师，您好，感觉您讲得很细致，娓娓道来。首次听到了 Nash 均衡的证明过程。我有个问题是在多组（就说两个组吧）作战对抗中，每个组有多个成员，同组内的成员相互合作，不同组的成员对抗，这个问题是一个动态博弈的问题，请问下老师这个问题中阶段怎么划分合适？（用一个成员被另一组的成员打败后，则该成员对应的状态发生改变，则作战进入下一个阶段，这样划分合适吗？）第二个问题是，我看到一些论文中把多智能体强化学习用到作战对抗问题中，那做仿真的时候一般采用什么仿真平台呢？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

L

Larry 2022-08-16 12:03:34 回复

老师您好，博弈论方面有哪些书籍推荐呢

Juneyiiii_ 2022-08-16 12:02:55 回复

老师您好，想问一下你前面讲到的 Stackelberg Game 的 leader 和 followers 的结构和分层强化学习中的 meta controller、controller 结构，这二者间的相似和区别。谢谢老师

W

wzc 2022-08-16 11:58:32 回复

对于 Evolutional Game Theory 策略一定要是完全由先天决定吗还是一部分由先天决定（比如设定了一些超参数）

R

ruirui 2022-08-16 11:58:22 回复

老师您好，能麻烦您再总结一下非完美信息和非完全信息博弈的区别和联系吗~非常感谢！

Y

yasuo 2022-08-16 11:58:16 回复

假设不是每个人都是理性自私的吗？为什么 core 比纳什均衡稳定？

Y

yasuo 2022-08-16 11:58:08 回复

老师帕累托均衡和纳什均衡的区别是什么，尤其是帕累托，我不是很懂，为什么三个(2,2),(3,0),(0,3)都是帕累托均衡？而不是只有(3,0),(0,3)?

无

无你想你 2022-08-16 11:46:05 回复

老师，我特别想问一个问题，就是在博弈当中，这个稳态是只有一个吗，因为刚刚在讲的时候，我发现好像对多个稳态的分析我没太听明白

周

周周 2022-08-16 11:45:40 回复

除了复制动态方程，进化博弈还有其它策略演化机制吗？以及当前关于进化博弈的前沿进展有哪些

君

君子慎独 2022-08-16 11:43:45 回复

老师，您好，感觉您讲得很细致，娓娓道来。首次听到了 Nash 均衡的证明过程。我有个问题是在多组（就说两个组吧）作战对抗中，每个组有多个成员，同组内的成员相互合作，不同组的成员对抗，这个问题是一个动态博弈的问题，请问下老师这个问题中阶段怎么划分合适？（用一个成员被另一组的成员打败后，则该成员对应的状态发生改变，则作战进入下一个阶段，这样划分合适吗？）第二个问题是，我看到一些论文中把多智能体强化学习用到作战对抗问题中，那做仿真的时候一般采用什么仿真平台呢？