RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

理论课二:博弈论基础

评论(66)
  • siqi
    siqi 回复

    老师您好,请问 extensive-form game 中,player2 的决策点与 player1 不一致,为什么依然会产生效益?如下图中:player1 选择 right,player2 选择(left,right)

  • RLChina
    RLChina 回复
    xiaozhitongxue xiaozhitongxue 2022-08-16 10:52:14

    老师您好,请问涉及到混合策略和贝叶斯博弈这类问题,玩家在制定策略的时候都是要让期望最高吗,考不考虑风险(方差)呢?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • RLChina
    RLChina 回复
    上善若水 上善若水 2022-08-16 11:31:31

    张老师您好,我是广西科技大学的一名计算机硕士研究生,十分感谢您的课程讲解,我想咨询一下,在多智能体深度强化学习控制决策领域里,我们的博弈论相关理论是如何支撑或结合强化学习方法?怎么以博弈论的理论指导多智能体深度强化学习方法的应用和发展的?再次表示对您讲解的感谢。

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • RLChina
    RLChina 回复
    君子慎独 2022-08-16 11:43:45

    老师,您好,感觉您讲得很细致,娓娓道来。首次听到了 Nash 均衡的证明过程。我有个问题是在多组(就说两个组吧)作战对抗中,每个组有多个成员,同组内的成员相互合作,不同组的成员对抗,这个问题是一个动态博弈的问题,请问下老师这个问题中阶段怎么划分合适?(用一个成员被另一组的成员打败后,则该成员对应的状态发生改变,则作战进入下一个阶段,这样划分合适吗?) 第二个问题是,我看到一些论文中把多智能体强化学习用到作战对抗问题中,那做仿真的时候一般采用什么仿真平台呢?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 张海峰
    张海峰 回复
    无你想你 2022-08-16 11:46:05

    老师,我特别想问一个问题,就是在博弈当中,这个稳态是只有一个吗,因为刚刚在讲的时候,我发现好像对多个稳态的分析我没太听明白

    一个博弈可以存在多个纳什均衡的,这也是协同博弈讨论的问题。

  • 张海峰
    张海峰 回复
    Y yasuo 2022-08-16 11:58:16

    假设不是每个人都是理性自私的吗?为什么 core 比纳什均衡稳定?

    core 的稳定在于它保证了任意一个“团体”都没有同时改变策略的动力,纳什均衡只保证任意的“个人”没有改变策略的动力。团体是包含个人的,所以某种意义上 core 的稳定性强一些。

  • 张海峰
    张海峰 回复
    F fanner 2022-08-16 08:53:14

    老师,您好!博弈过程中所要达到的均衡类型是怎么判断的?每种类型的博弈有特定的均衡吗(比如非合作博弈下的纳什均衡)?还是需要具体问题具体分析,根据问题本身和问题结果判断均衡的类型?您目前接触到的博弈均衡有哪些?都有什么特点呢?

    一般每种类型的博弈会有对应的均衡概念,但本质都是不动点,大同小异的

  • 上善若水
    上善若水 回复
    自动化所金宣法 自动化所金宣法 2022-08-16 12:30:39

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

    十分感谢!感谢老师的精彩讲解!也感谢平台为我们提供的学习和交流的机会!

  • 自动化所金宣法
    自动化所金宣法 回复
    xiaozhitongxue xiaozhitongxue 2022-08-16 10:52:14

    老师您好,请问涉及到混合策略和贝叶斯博弈这类问题,玩家在制定策略的时候都是要让期望最高吗,考不考虑风险(方差)呢?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 自动化所金宣法
    自动化所金宣法 回复
    上善若水 上善若水 2022-08-16 11:31:31

    张老师您好,我是广西科技大学的一名计算机硕士研究生,十分感谢您的课程讲解,我想咨询一下,在多智能体深度强化学习控制决策领域里,我们的博弈论相关理论是如何支撑或结合强化学习方法?怎么以博弈论的理论指导多智能体深度强化学习方法的应用和发展的?再次表示对您讲解的感谢。

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • vinbo
    vinbo 回复
    Y yasuo 2022-08-16 11:58:08

    老师帕累托均衡和纳什均衡的区别是什么,尤其是帕累托,我不是很懂,为什么三个(2,2),(3,0),(0,3)都是帕累托均衡?而不是只有(3,0),(0,3)?

    看懂定义即可。这俩基本没啥关系。

  • 自动化所金宣法
    自动化所金宣法 回复
    君子慎独 2022-08-16 11:43:45

    老师,您好,感觉您讲得很细致,娓娓道来。首次听到了 Nash 均衡的证明过程。我有个问题是在多组(就说两个组吧)作战对抗中,每个组有多个成员,同组内的成员相互合作,不同组的成员对抗,这个问题是一个动态博弈的问题,请问下老师这个问题中阶段怎么划分合适?(用一个成员被另一组的成员打败后,则该成员对应的状态发生改变,则作战进入下一个阶段,这样划分合适吗?) 第二个问题是,我看到一些论文中把多智能体强化学习用到作战对抗问题中,那做仿真的时候一般采用什么仿真平台呢?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请发送您的姓名电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • Larry 回复

    老师您好,博弈论方面有哪些书籍推荐呢

  • Juneyiiii_
    Juneyiiii_ 回复

    老师您好,想问一下你前面讲到的 Stackelberg Game 的 leader 和 followers 的结构和分层强化学习中的 meta controller、controller 结构,这二者间的相似和区别。谢谢老师

  • wzc 回复

    对于 Evolutional Game Theory 策略一定要是完全由先天决定吗 还是一部分由先天决定(比如设定了一些超参数)

  • ruirui 回复

    老师您好,能麻烦您再总结一下非完美信息和非完全信息博弈的区别和联系吗~非常感谢!

  • yasuo 回复

    假设不是每个人都是理性自私的吗?为什么 core 比纳什均衡稳定?

  • yasuo 回复

    老师帕累托均衡和纳什均衡的区别是什么,尤其是帕累托,我不是很懂,为什么三个(2,2),(3,0),(0,3)都是帕累托均衡?而不是只有(3,0),(0,3)?

  • 无你想你 回复

    老师,我特别想问一个问题,就是在博弈当中,这个稳态是只有一个吗,因为刚刚在讲的时候,我发现好像对多个稳态的分析我没太听明白

  • 周周 回复

    除了复制动态方程,进化博弈还有其它策略演化机制吗?以及当前关于进化博弈的前沿进展有哪些

  • 君子慎独 回复

    老师,您好,感觉您讲得很细致,娓娓道来。首次听到了 Nash 均衡的证明过程。我有个问题是在多组(就说两个组吧)作战对抗中,每个组有多个成员,同组内的成员相互合作,不同组的成员对抗,这个问题是一个动态博弈的问题,请问下老师这个问题中阶段怎么划分合适?(用一个成员被另一组的成员打败后,则该成员对应的状态发生改变,则作战进入下一个阶段,这样划分合适吗?) 第二个问题是,我看到一些论文中把多智能体强化学习用到作战对抗问题中,那做仿真的时候一般采用什么仿真平台呢?

  • RL未来光明
    RL未来光明 回复

    老师您好,请问进化博弈和演化算法有什么区别和联系呢?谢谢

  • yasuo 回复

    老师帕累托和纳什的区别是什么,没有搞太懂

  • Zxy
    Zxy 回复

    老师,您好。请问,博弈论在自动驾驶上的应用是在哪方面了?有怎样的意义?

  • vinbo
    vinbo 回复

    请问能简单说一下 ficticious play 收敛到 nash 均衡的证明思路吗?

  • Zxy
    Zxy 回复

    老师,您好!海萨尼转换,具体是?是不是将非完全信息之前隐藏的信息公开出来了?

  • vinbo
    vinbo 回复

    请问可以解释一下 correlated equilibrium 吗?

  • Go_O 回复
    老师您好,想问下,对于不完美信息和不完全信息的转换,以及两种信息在实际问题求解中带来的困难。谢谢老师。
  • RL未来光明
    RL未来光明 回复

    老师您好,请问元博弈和强化学习应该如何结合呢?谢谢

  • 无你想你 回复

    老师好,我想问一声在记录式博弈当中,如果需要记录的步数,是不是这个对内存,也就是硬件的要求很高,有没有更好的优化方式?

  • 上善若水
    上善若水 回复

    张老师您好,我是广西科技大学的一名计算机硕士研究生,十分感谢您的课程讲解,我想咨询一下,在多智能体深度强化学习控制决策领域里,我们的博弈论相关理论是如何支撑或结合强化学习方法?怎么以博弈论的理论指导多智能体深度强化学习方法的应用和发展的?再次表示对您讲解的感谢。

  • hjj 回复

    老师您好,演化博弈如何做强化博弈仿真呢?您 PPT 课件中的图都是用什么算法、用什么软件做的,能否推荐一些学习资料,感谢老师指点,谢谢!

  • Mengfan 回复

    老师您好,如果玩家大都采用以牙还牙策略,是否最优受第一轮的影响很大是吗

  • BMZhang 回复

    重复博弈的时候,如果对手完全不按套路来,tit-for-tat 还能实现么?是不是博弈论前提就是大家都是理性的?

  • 十三 回复

    老师您好,请问博弈论在强化学习中应用的知识点的相关教材有推荐阅读的吗?今天讲到的一些模型有扩展阅读的材料吗?

  • lyingCS
    lyingCS 回复
    想问一下现实世界里求纳什均衡是不是非常困难,需要用一些类似于CFR这样的迭代算法来求解,另外我看这类算法和rl比较像,请问两者有什么相似点呢?
  • AndyZCJ 回复

    老师你好,感觉纳什均衡对研究多智能体强化学习(MARL)很有帮助,请问纳什均衡在 MARL 的研究中有被广泛应用吗?

  • clown 回复

    老师您好,可以总结一下帕累托最优、纳什均衡、劳尔不动点的关系嘛~

  • 无你想你 回复

    老师,不是所有的博弈问题都可以用到纳什均衡吧,而且怎么去判断是否要用纳什均衡的方法?

  • running RL
    running RL 回复

    老师 您好,想请问下在智能体进行股票交易的场景中存在博弈论的思想吗?

  • xiaozhitongxue
    xiaozhitongxue 回复

    老师您好,请问涉及到混合策略和贝叶斯博弈这类问题,玩家在制定策略的时候都是要让期望最高吗,考不考虑风险(方差)呢?

  • tzf 回复

    请问老师,纳什均衡不是适用于所有博弈类型问题的吧?什么博弈问题有纳什均衡呢?如何判断哪些博弈问题是求解纳什均衡解?
    能不能结合博弈问题修改“纳什均衡解”的表达?如:markov 博弈的解叫做 markov 纳什均衡解,bayesian 博弈的解叫 bayesian 纳什均衡解
    谢谢老师

  • 爱学习的好好好 回复
    请问老师,非完全信息和非完美信息的区别是在于:非完全信息是可知但不知,而非完美信息是不可知吗?
  • tzf 回复

    请问老师,如何理解 Bayesian 博弈中的 type 空间?是指玩家的类型嘛?

  • xiaozhitongxue
    xiaozhitongxue 回复

    老师您好,学习强化学习需要把博弈论学到什么程度呢,今天讲的博弈模型及对应求解都要掌握吗?

  • ruirui 回复

    老师好,请问:部分可观测的马尔可夫决策过程(POMDP)和不完全信息以及不完美信息博弈之间有什么关系吗?

  • yyx 回复

    老师关于囚徒困境有详细课程吗

  • GabrieLZH 回复

    Extensive form vs. normal form 的树转表可以麻烦老师再讲一下吗?

  • R4.05 回复

    现实中如果面对囚徒困境应该怎么办(手动狗头)

  • hjj 回复

    请问老师,如果运用强化学习的话,马尔可夫博弈需要深入学习吗?能否麻烦老师推荐一个马尔可夫的学习资料或者书籍,谢谢