- 请问多智能体强化学习有录播课吗?错过了直播
- 老师好,如果要研究人与智能体的合作,这和多智能体之间的合作区别大吗?区别在哪?
感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
-
张老师您好,想问下 transformer 这样强大的序列模型是否可以比较好的应用解决 MARL 问题呢?还有,就是不太能理解空间维度是怎么来的 n 次方,导致维度灾难的?老师可否举个具体例子?
感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
-
张老师您好,请问对于 MARL 的研究中主要追求 nash 均衡还是帕累托最优呢?如果目标是帕累托最优的话,有什么推荐的算法吗?
感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
-
如果一个问题可以使用单智能体的 RL,那么多智能体的 RL 对比单智能体的 RL 有什么优势?还是说能用单智能体 RL 就用单智能体 RL?
感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
-
张老师您好,1,CTDE 学习范式下假设可以拿到 global state 和 full opponent action,这种假设是否过强?如果在训练的时候也拿不到这些信息应该怎么进行算法设计,此外,最近的 HAPPO 和 HATRPO 方法采用序列决策,后者智能体可以拿到前者智能体动作等假设,这两种不同的学习范式哪一种假设更加合理呢?
2, 基于值分解的 MARL,采用 GRU 之后的部分可观测问题相对于完全可观测条件对多智能体算法还有多大的影响,部分可观测影响了到了什么?感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
-
请问,多智能体,可以转化成单智能体来解决问题,是不是,DDPG 也可应用于多智能体来?
-
张老师您好,想问下 transformer 这样强大的序列模型是否可以比较好的应用解决 MARL 问题呢?还有,就是不太能理解空间维度是怎么来的 n 次方,导致维度灾难的?老师可否举个具体例子?
同问
-
张老师,您有多智能体强化学习在解决资源调度方面的比较推荐的方法吗?
-
张老师,您如何利用多智能体学习解决组合优化类的问题?
-
请问多智能体强化学习可以应用于车辆编队的换道决策研究吗?
-
张老师,您对基于多智能体学习的通信怎么看?如 Learning to Communicate with Deep Multi-Agent Reinforcement Learning
-
老师您好!QMIX 算法中,根据 TD 算法求梯度更新参数,这里更新的参数是超参数网络中的参数,还是各个 agent 的网络参数,还是它们都利用反向传播更新参数?
-
张老师您好,现有的多智能体强化学习大多采用集中式训练和分布式执行的架构,能否考虑分布式训练和分布性执行的架构,例如和联邦学习相结合,分布式训练如何学习集中式 Q 函数来缓解环境不平稳问题呢
-
张老师您好,1,CTDE 学习范式下假设可以拿到 global state 和 full opponent action,这种假设是否过强?如果在训练的时候也拿不到这些信息应该怎么进行算法设计,此外,最近的 HAPPO 和 HATRPO 方法采用序列决策,后者智能体可以拿到前者智能体动作等假设,这两种不同的学习范式哪一种假设更加合理呢?
2, 基于值分解的 MARL,采用 GRU 之后的部分可观测问题相对于完全可观测条件对多智能体算法还有多大的影响,部分可观测影响了到了什么? -
MARL 的问题可以借助非常多的人类交互规则的机制来设计算法。
-
多智能体的过程有点类似于谱分解或者多维高斯过程的组合。
-
IGM 的方法好像有个 bug,存在资源约束的情况下,必然会一个 agent 达到最大,其他 agent 会变小。基本没有无限资源的现实情况。所以不可能同时取到 Q 的最大值吧?
- 代王力强提问:张老师您好,多智能体的动作空间设计需要完全一致吗?
-
张老师您好,想问下 transformer 这样强大的序列模型是否可以比较好的应用解决 MARL 问题呢?还有,就是不太能理解空间维度是怎么来的 n 次方,导致维度灾难的?老师可否举个具体例子?
-
如果一个问题可以使用单智能体的 RL,那么多智能体的 RL 对比单智能体的 RL 有什么优势?还是说能用单智能体 RL 就用单智能体 RL?
-
张老师您好,请问对于 MARL 的研究中主要追求 nash 均衡还是帕累托最优呢?如果目标是帕累托最优的话,有什么推荐的算法吗?
-
请问张老师,目前 QMIX, MADDPG,MAPPO 等算法都是非常常用的 MARL 算法,并且难以超越,那 MARL 领域还有很多坑可以挖掘吗?
-
张老师您好,请问您觉得显示的信用分配方式(MADDPG)更合理还是隐式的信用分配方式(QMXI)更合理呢?
-
张老师您好,想问下基于注意力机制的 transformer 模块该如何比较好的应用于 MARL 模型中呢?
- 老师好,如果要研究人与智能体的合作,这和多智能体之间的合作区别大吗?区别在哪?
- 老师您好!请问目前MARL的研究比较推荐从理论上,如博弈论角度研究,还是重在工程上效果好呢?
RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
评论(29)
请
登录后发表观点