- 请问老师,多智能体的种群算法具体可以用在哪些场景,种群算法应该怎样与博弈论相结合?
感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
-
请问温颖老师,我们假设多智能体之间的博弈,每局只有两个智能体在博弈,如果让这些智能体之间充分博弈,也就是让它们之间打联赛,则在整个联赛之后,是不是可以抽象出所有参与联赛的智能体的联合策略呢?这个联合策略是不是最终也可以收敛至纳什均衡呢?
感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
-
老师您好,NFSP 系列算法依赖于 off-policy 的深度 Q 值网络,因此在搜索规模大、即时策略场景下很难收敛,有没有一些方法可以降低其收敛难度呢?
感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
-
请问温颖老师,我们假设多智能体之间的博弈,每局只有两个智能体在博弈,如果让这些智能体之间充分博弈,也就是让它们之间打联赛,则在整个联赛之后,是不是可以抽象出所有参与联赛的智能体的联合策略呢?这个联合策略是不是最终也可以收敛至纳什均衡呢?
感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
-
https://proceedings.mlr.press/v80/zhang18n/zhang18n.pdf 不太确定您是指这种 netwoked multi-agent 的 settings 吗?
对的老师
-
请问老师,对于无法使用矩阵博弈表示的博弈(例如效用函数是玩家策略的函数而非动作的函数)还能否用 PSRO 算法进行求解呢?
double Oracle 要求是矩阵博弈,PSRO 是 DO 的扩展,并不要求矩阵博弈,可以使用 DRL 在大多数 MA 场景上跑起来(智能体数据不能太多)。
-
请问目前有没有研究对 PSRO 采样复杂度进行分析的呢?
关于 meta game anlysis 复杂度:https://arxiv.org/abs/1909.11628
关于 meta game 和 underlaying game 的均衡之间的关系:https://link.springer.com/article/10.1007/s10458-019-09432-y -
老师您好,请问一下,多智能体在复杂网络上的博弈具体有哪些研究方向呢?
https://proceedings.mlr.press/v80/zhang18n/zhang18n.pdf 不太确定您是指这种 netwoked multi-agent 的 settings 吗?
-
请问老师,目前有没有基于种群学习的成熟算法库?
-
请问老师,目前有没有基于种群学习的成熟算法库?
-
请问温颖老师,我们假设多智能体之间的博弈,每局只有两个智能体在博弈,如果让这些智能体之间充分博弈,也就是让它们之间打联赛,则在整个联赛之后,是不是可以抽象出所有参与联赛的智能体的联合策略呢?这个联合策略是不是最终也可以收敛至纳什均衡呢?
在理想状况下是的,但实际现在的参数化策略并不能完全覆盖整个策略空间,从而学习到全局最优解。所以 population-play 里一个重要研究点就是策略多样性,如何使策略池里所有的策略尽可能覆盖整个策略空间,最终学习到一个全局的最优策略。
-
我们下的代码中 gogang 下没有 env 文件,运行不了
不好意思,已经更新了 Git repo。
-
请问老师 已经安装了环境等 为什么运行时还提示 No module named 'rlcard' 呢?
可以 pip list 检查下是否 rlcard 安装成功。如果有的话,那就是路径问题。
- SMARTS模拟器是否可以设定环境?
-
参赛用的算法和是自己定吗?
- 请问SMARTS这个模拟器只做了2D的这种交通流仿真吗?SMARTS模拟器是否做了多车的协同,多车之间能否可以通信?
-
我们下的代码中 gogang 下没有 env 文件,运行不了
-
老师您好,NFSP 系列算法依赖于 off-policy 的深度 Q 值网络,因此在搜索规模大、即时策略场景下很难收敛,有没有一些方法可以降低其收敛难度呢?
- 老师您好,self play是不仅能够打败自己,而且能够打败所有的对手,达到最优的策略,它不是在线的,而是根据历史信息采样学习,可以这样理解么?
-
请问温颖老师,我们假设多智能体之间的博弈,每局只有两个智能体在博弈,如果让这些智能体之间充分博弈,也就是让它们之间打联赛,则在整个联赛之后,是不是可以抽象出所有参与联赛的智能体的联合策略呢?这个联合策略是不是最终也可以收敛至纳什均衡呢?
- 请问老师,NFSP不能收敛到近似纳什均衡,有没有改进的方法提升它的性能使之收敛到近似纳什均衡?
-
老师想问一下,关于自对弈(SP)、虚拟自对弈(FSP),这些问题在不同应用场景上有没有一些推荐的算法?
-
请问老师 已经安装了环境等 为什么运行时还提示 No module named 'rlcard' 呢?
- 请问老师,多智能体的种群算法具体可以用在哪些场景,种群算法应该怎样与博弈论相结合?
-
老师,多智能体在哪些方面比单智能体有优势?
-
温老师您好,想请问一下多智能体强化学习的收敛结果与博弈论中各种均衡之间存在着何种关系?MARL 出了名的难收敛,如何保证 MARL 的收敛性以及收敛的合理性?
-
老师您好,请问一下,多智能体在复杂网络上的博弈具体有哪些研究方向呢?
-
老师您好,想请问一下基于种群的算法和我们的 population-based learning,以及目前的一些多目标的强化学习(MORL)和演化强化学习(Evolutionary RL)有什么联系呢?以及还想问一下目前我们 population-based 多目标的强化学习、演化强化学习有什么新的研究方向或者 idea 呢? 谢谢老师!
-
请问老师,目前有没有基于种群学习的成熟算法库?
-
请问目前有没有研究对 PSRO 采样复杂度进行分析的呢?
-
请问老师,对于无法使用矩阵博弈表示的博弈(例如效用函数是玩家策略的函数而非动作的函数)还能否用 PSRO 算法进行求解呢?
RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
评论(36)
请
登录后发表观点