RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

专题报告一:多智能体强化学习

评论(29)
  • 好的
    好的 回复
    请问多智能体强化学习有录播课吗?错过了直播
  • 米祈睿
    米祈睿 回复
    C CASIA_XL 2022-08-21 16:42:10
    老师好,如果要研究人与智能体的合作,这和多智能体之间的合作区别大吗?区别在哪?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 米祈睿
    米祈睿 回复
    上善若水 上善若水 2022-08-22 09:26:19

    张老师您好,想问下 transformer 这样强大的序列模型是否可以比较好的应用解决 MARL 问题呢?还有,就是不太能理解空间维度是怎么来的 n 次方,导致维度灾难的?老师可否举个具体例子?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 米祈睿
    米祈睿 回复
    北风与歌 北风与歌 2022-08-22 08:46:00

    张老师您好,请问对于 MARL 的研究中主要追求 nash 均衡还是帕累托最优呢?如果目标是帕累托最优的话,有什么推荐的算法吗?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 米祈睿
    米祈睿 回复
    东一月 2022-08-22 09:24:17

    如果一个问题可以使用单智能体的 RL,那么多智能体的 RL 对比单智能体的 RL 有什么优势?还是说能用单智能体 RL 就用单智能体 RL?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 米祈睿
    米祈睿 回复
    马里奥 马里奥 2022-08-22 09:47:05

    张老师您好,1,CTDE 学习范式下假设可以拿到 global state 和 full opponent action,这种假设是否过强?如果在训练的时候也拿不到这些信息应该怎么进行算法设计,此外,最近的 HAPPO 和 HATRPO 方法采用序列决策,后者智能体可以拿到前者智能体动作等假设,这两种不同的学习范式哪一种假设更加合理呢?
    2, 基于值分解的 MARL,采用 GRU 之后的部分可观测问题相对于完全可观测条件对多智能体算法还有多大的影响,部分可观测影响了到了什么?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 凉皮必须麻酱
    凉皮必须麻酱 回复
    时比业 2022-08-22 10:52:05

    请问,多智能体,可以转化成单智能体来解决问题,是不是,DDPG 也可应用于多智能体来?

    ddpg是可以用到多智能体的
  • dadada
    dadada 回复
    云荒之火 2022-08-22 10:46:09

    张老师,您如何利用多智能体学习解决组合优化类的问题?

    同问

  • 时比业 回复

    请问,多智能体,可以转化成单智能体来解决问题,是不是,DDPG 也可应用于多智能体来?

  • dadada
    dadada 回复
    上善若水 上善若水 2022-08-22 09:26:19

    张老师您好,想问下 transformer 这样强大的序列模型是否可以比较好的应用解决 MARL 问题呢?还有,就是不太能理解空间维度是怎么来的 n 次方,导致维度灾难的?老师可否举个具体例子?

    同问

  • dadada
    dadada 回复

    张老师,您有多智能体强化学习在解决资源调度方面的比较推荐的方法吗?

  • 云荒之火 回复

    张老师,您如何利用多智能体学习解决组合优化类的问题?

  • binyu19
    binyu19 回复

    请问多智能体强化学习可以应用于车辆编队的换道决策研究吗?

  • 天人合一
    天人合一 回复

    张老师,您对基于多智能体学习的通信怎么看?如 Learning to Communicate with Deep Multi-Agent Reinforcement Learning

  • 伯虎点金刚 回复

    老师您好!QMIX 算法中,根据 TD 算法求梯度更新参数,这里更新的参数是超参数网络中的参数,还是各个 agent 的网络参数,还是它们都利用反向传播更新参数?

  • xyhk96 回复

    张老师您好,现有的多智能体强化学习大多采用集中式训练和分布式执行的架构,能否考虑分布式训练和分布性执行的架构,例如和联邦学习相结合,分布式训练如何学习集中式 Q 函数来缓解环境不平稳问题呢

  • 马里奥
    马里奥 回复

    张老师您好,1,CTDE 学习范式下假设可以拿到 global state 和 full opponent action,这种假设是否过强?如果在训练的时候也拿不到这些信息应该怎么进行算法设计,此外,最近的 HAPPO 和 HATRPO 方法采用序列决策,后者智能体可以拿到前者智能体动作等假设,这两种不同的学习范式哪一种假设更加合理呢?
    2, 基于值分解的 MARL,采用 GRU 之后的部分可观测问题相对于完全可观测条件对多智能体算法还有多大的影响,部分可观测影响了到了什么?

  • Jasmine
    Jasmine 回复

    MARL 的问题可以借助非常多的人类交互规则的机制来设计算法。

  • Jasmine
    Jasmine 回复

    多智能体的过程有点类似于谱分解或者多维高斯过程的组合。

  • Jasmine
    Jasmine 回复

    IGM 的方法好像有个 bug,存在资源约束的情况下,必然会一个 agent 达到最大,其他 agent 会变小。基本没有无限资源的现实情况。所以不可能同时取到 Q 的最大值吧?

  • 张囤囤
    张囤囤 回复
    代王力强提问:张老师您好,多智能体的动作空间设计需要完全一致吗?
  • 上善若水
    上善若水 回复

    张老师您好,想问下 transformer 这样强大的序列模型是否可以比较好的应用解决 MARL 问题呢?还有,就是不太能理解空间维度是怎么来的 n 次方,导致维度灾难的?老师可否举个具体例子?

  • 东一月 回复

    如果一个问题可以使用单智能体的 RL,那么多智能体的 RL 对比单智能体的 RL 有什么优势?还是说能用单智能体 RL 就用单智能体 RL?

  • 北风与歌
    北风与歌 回复

    张老师您好,请问对于 MARL 的研究中主要追求 nash 均衡还是帕累托最优呢?如果目标是帕累托最优的话,有什么推荐的算法吗?

  • wsz 回复

    请问张老师,目前 QMIX, MADDPG,MAPPO 等算法都是非常常用的 MARL 算法,并且难以超越,那 MARL 领域还有很多坑可以挖掘吗?

  • 峻菌君
    峻菌君 回复

    张老师您好,请问您觉得显示的信用分配方式(MADDPG)更合理还是隐式的信用分配方式(QMXI)更合理呢?

  • YT Jing
    YT Jing 回复

    张老师您好,想问下基于注意力机制的 transformer 模块该如何比较好的应用于 MARL 模型中呢?

  • CASIA_XL 回复
    老师好,如果要研究人与智能体的合作,这和多智能体之间的合作区别大吗?区别在哪?
  • ZhangYP 回复
    老师您好!请问目前MARL的研究比较推荐从理论上,如博弈论角度研究,还是重在工程上效果好呢?