实践课四：基于种群的学习 | RLChina 强化学习社区

RLChina 2022-08-18 22:55:01 回复

追追光 2022-08-18 15:32:09

请问老师，多智能体的种群算法具体可以用在哪些场景，种群算法应该怎样与博弈论相结合？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

RLChina 2022-08-18 22:54:51 回复

Meuky 2022-08-18 16:03:47

请问温颖老师，我们假设多智能体之间的博弈，每局只有两个智能体在博弈，如果让这些智能体之间充分博弈，也就是让它们之间打联赛，则在整个联赛之后，是不是可以抽象出所有参与联赛的智能体的联合策略呢？这个联合策略是不是最终也可以收敛至纳什均衡呢？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

RLChina 2022-08-18 22:54:27 回复

高高鑫 2022-08-18 16:07:25

老师您好，NFSP 系列算法依赖于 off-policy 的深度 Q 值网络，因此在搜索规模大、即时策略场景下很难收敛，有没有一些方法可以降低其收敛难度呢？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

赵祉瑜+中科院自动化所 2022-08-18 21:29:22 回复

追追光 2022-08-18 15:58:59

请问老师，NFSP不能收敛到近似纳什均衡，有没有改进的方法提升它的性能使之收敛到近似纳什均衡？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

赵祉瑜+中科院自动化所 2022-08-18 21:29:13 回复

Meuky 2022-08-18 16:03:47

请问温颖老师，我们假设多智能体之间的博弈，每局只有两个智能体在博弈，如果让这些智能体之间充分博弈，也就是让它们之间打联赛，则在整个联赛之后，是不是可以抽象出所有参与联赛的智能体的联合策略呢？这个联合策略是不是最终也可以收敛至纳什均衡呢？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

赵祉瑜+中科院自动化所 2022-08-18 21:28:59 回复

高高鑫 2022-08-18 16:07:25

老师您好，NFSP 系列算法依赖于 off-policy 的深度 Q 值网络，因此在搜索规模大、即时策略场景下很难收敛，有没有一些方法可以降低其收敛难度呢？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

Frei0d 2022-08-18 17:59:10 回复

温颖 2022-08-18 17:45:43

https://proceedings.mlr.press/v80/zhang18n/zhang18n.pdf 不太确定您是指这种 netwoked multi-agent 的 settings 吗？

对的老师

温颖 2022-08-18 17:56:18 回复

赵祉瑜+中科院自动化所 2022-08-15 09:54:13

请问老师，对于无法使用矩阵博弈表示的博弈（例如效用函数是玩家策略的函数而非动作的函数）还能否用 PSRO 算法进行求解呢？

double Oracle 要求是矩阵博弈，PSRO 是 DO 的扩展，并不要求矩阵博弈，可以使用 DRL 在大多数 MA 场景上跑起来（智能体数据不能太多）。

温颖 2022-08-18 17:54:44 回复

无无花果 2022-08-15 10:07:59

请问目前有没有研究对 PSRO 采样复杂度进行分析的呢？

关于 meta game anlysis 复杂度：https://arxiv.org/abs/1909.11628
关于 meta game 和 underlaying game 的均衡之间的关系：https://link.springer.com/article/10.1007/s10458-019-09432-y

温颖 2022-08-18 17:45:43 回复

Frei0d 2022-08-18 14:41:40

老师您好，请问一下，多智能体在复杂网络上的博弈具体有哪些研究方向呢？

https://proceedings.mlr.press/v80/zhang18n/zhang18n.pdf 不太确定您是指这种 netwoked multi-agent 的 settings 吗？

温颖 2022-08-18 17:44:45 回复

时时比业 2022-08-18 15:20:50

老师，多智能体在哪些方面比单智能体有优势？

这个还是根据场景需要，能单智能体解决就单智能体解决，多智能体更多是可以支持 decentralized control 更灵活一些，但训练难度大很多。

温颖 2022-08-18 17:43:31 回复

H helloword 2022-08-15 10:21:07

请问老师，目前有没有基于种群学习的成熟算法库？

https://github.com/sjtu-marl/malib , https://github.com/tencent-ailab/TLeague , https://opendilab.github.io/DI-engine/index.html , https://github.com/davidADSP/SIMPLE

温颖 2022-08-18 17:41:40 回复

H helloword 2022-08-15 10:21:07

请问老师，目前有没有基于种群学习的成熟算法库？

https://github.com/deepmind/open_spiel

温颖 2022-08-18 17:41:18 回复

追追光 2022-08-18 15:32:09

请问老师，多智能体的种群算法具体可以用在哪些场景，种群算法应该怎样与博弈论相结合？

PSRO 中对于元博弈的分析就会结合一些博弈论的方法。

温颖 2022-08-18 17:40:29 回复

Meuky 2022-08-18 16:03:47

请问温颖老师，我们假设多智能体之间的博弈，每局只有两个智能体在博弈，如果让这些智能体之间充分博弈，也就是让它们之间打联赛，则在整个联赛之后，是不是可以抽象出所有参与联赛的智能体的联合策略呢？这个联合策略是不是最终也可以收敛至纳什均衡呢？

在理想状况下是的，但实际现在的参数化策略并不能完全覆盖整个策略空间，从而学习到全局最优解。所以 population-play 里一个重要研究点就是策略多样性，如何使策略池里所有的策略尽可能覆盖整个策略空间，最终学习到一个全局的最优策略。

温颖 2022-08-18 17:38:57 回复

追追光 2022-08-18 16:03:48

老师您好，self play是不仅能够打败自己，而且能够打败所有的对手，达到最优的策略，它不是在线的，而是根据历史信息采样学习，可以这样理解么？

naive self-play 的话是一直在线 play against 自己最新的策略。一般性的 population-play 假设有个策略池/Population（可以预设的，也可以是自动生成的）根据一定概率从策略池/Population 里采样策略作为对手进行学习。

温颖 2022-08-18 17:33:55 回复

天人合一 2022-08-18 16:44:30

我们下的代码中 gogang 下没有 env 文件，运行不了

不好意思，已经更新了 Git repo。

温颖 2022-08-18 17:33:40 回复

Jasmine 2022-08-18 15:53:51

请问老师已经安装了环境等为什么运行时还提示 No module named 'rlcard' 呢？

可以 pip list 检查下是否 rlcard 安装成功。如果有的话，那就是路径问题。

Zxy 2022-08-18 17:00:26 回复

SMARTS模拟器是否可以设定环境？

X

XiulingZhang 2022-08-18 16:59:22 回复

参赛用的算法和是自己定吗？

Zxy 2022-08-18 16:58:13 回复

请问SMARTS这个模拟器只做了2D的这种交通流仿真吗？SMARTS模拟器是否做了多车的协同，多车之间能否可以通信？

天人合一 2022-08-18 16:44:30 回复

我们下的代码中 gogang 下没有 env 文件，运行不了

高

高鑫 2022-08-18 16:07:25 回复

老师您好，NFSP 系列算法依赖于 off-policy 的深度 Q 值网络，因此在搜索规模大、即时策略场景下很难收敛，有没有一些方法可以降低其收敛难度呢？

追

追光 2022-08-18 16:03:48 回复

老师您好，self play是不仅能够打败自己，而且能够打败所有的对手，达到最优的策略，它不是在线的，而是根据历史信息采样学习，可以这样理解么？

Meuky 2022-08-18 16:03:47 回复

请问温颖老师，我们假设多智能体之间的博弈，每局只有两个智能体在博弈，如果让这些智能体之间充分博弈，也就是让它们之间打联赛，则在整个联赛之后，是不是可以抽象出所有参与联赛的智能体的联合策略呢？这个联合策略是不是最终也可以收敛至纳什均衡呢？

追

追光 2022-08-18 15:58:59 回复

请问老师，NFSP不能收敛到近似纳什均衡，有没有改进的方法提升它的性能使之收敛到近似纳什均衡？

L

lujie 2022-08-18 15:57:32 回复

老师想问一下，关于自对弈（SP）、虚拟自对弈（FSP），这些问题在不同应用场景上有没有一些推荐的算法？

Jasmine 2022-08-18 15:53:51 回复

请问老师已经安装了环境等为什么运行时还提示 No module named 'rlcard' 呢？

追

追光 2022-08-18 15:32:09 回复

请问老师，多智能体的种群算法具体可以用在哪些场景，种群算法应该怎样与博弈论相结合？

时

时比业 2022-08-18 15:20:50 回复

老师，多智能体在哪些方面比单智能体有优势？

A

AgentSmart 2022-08-18 14:52:33 回复

温老师您好，想请问一下多智能体强化学习的收敛结果与博弈论中各种均衡之间存在着何种关系？MARL 出了名的难收敛，如何保证 MARL 的收敛性以及收敛的合理性？

Frei0d 2022-08-18 14:41:40 回复

老师您好，请问一下，多智能体在复杂网络上的博弈具体有哪些研究方向呢？

C

curryliu 2022-08-18 14:38:15 回复

老师您好，想请问一下基于种群的算法和我们的 population-based learning，以及目前的一些多目标的强化学习(MORL)和演化强化学习(Evolutionary RL)有什么联系呢？以及还想问一下目前我们 population-based 多目标的强化学习、演化强化学习有什么新的研究方向或者 idea 呢？谢谢老师！

H

helloword 2022-08-15 10:21:07 回复

请问老师，目前有没有基于种群学习的成熟算法库？

无

无花果 2022-08-15 10:07:59 回复

请问目前有没有研究对 PSRO 采样复杂度进行分析的呢？

赵祉瑜+中科院自动化所 2022-08-15 09:54:13 回复

请问老师，对于无法使用矩阵博弈表示的博弈（例如效用函数是玩家策略的函数而非动作的函数）还能否用 PSRO 算法进行求解呢？