RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

前沿进展七:深度强化学习的若干前沿方向

评论(17)
  • 木丰心
    木丰心 回复
    曲畅生 2022-08-25 16:24:08

    关于第二个问题,刚才讲到的 LIAM 就可以面对多个对手的,只要在 decoder 的时候重构其余对手的局部观测和动作就好,只是对手的数量如果太大会不好收敛。其实我们将其余对手对我们的影响视作一个虚拟的对手的影响也是可以的,这种思路有点像平均场估计的近似。

    感谢回复,我也是考虑到了可能存在不好收敛的问题。

  • 孙罗洋 中科院自动化研究所
    随风 随风 2022-08-25 15:35:21
    请问老师,由一般强化学习算法训练产生的策略往往容易在虚拟的仿真环境上过拟合,从而仿真环境和现实系统无法完全匹配,如何设计鲁棒强化学习算法来进行优化?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 孙罗洋 中科院自动化研究所
    vinbo vinbo 2022-08-25 15:30:21

    请问无人机端到端的 RL 中,在 Airsim 之类的虚拟环境中可以无限次试错,但是在真实环境中怎么做呢?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 孙罗洋 中科院自动化研究所
    Mr_wang Mr_wang 2022-08-25 15:38:02

    请问,一个大型博弈的可利用度如何计算呢?具体来说需要计算两个最佳响应,众多论文中从未提及,那通常是如何计算的呢?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 曲畅生 回复
    木丰心 木丰心 2022-08-25 15:54:15

    老师您好:

    1. 这个 CFR 算法适用的是多大规模的多智能体环境?适用于 SC2 这种环境吗?
    2. 这种 Opponent Modeling 看样子大多是两个智能体,对于大规模的问题应该怎么去建模呢?

    如果规模很大是不是也可以考虑建模一些上层宏观的动作,比如对手整体希望进攻哪个目标,或者整体是不是想要撤退等等

  • 曲畅生 回复
    木丰心 木丰心 2022-08-25 15:54:15

    老师您好:

    1. 这个 CFR 算法适用的是多大规模的多智能体环境?适用于 SC2 这种环境吗?
    2. 这种 Opponent Modeling 看样子大多是两个智能体,对于大规模的问题应该怎么去建模呢?

    关于第二个问题,刚才讲到的 LIAM 就可以面对多个对手的,只要在 decoder 的时候重构其余对手的局部观测和动作就好,只是对手的数量如果太大会不好收敛。其实我们将其余对手对我们的影响视作一个虚拟的对手的影响也是可以的,这种思路有点像平均场估计的近似。

  • 曲畅生 回复
    vinbo vinbo 2022-08-25 15:54:24

    请问在基于对手建模的对抗 RL 中,如果考虑对手足够智能,那么如何保证算法最后的收敛性?

    对手是否智能和 RL 算法是否收敛没关系吧,主要是对手策略的变化会导致 RL 不收敛,就是所谓的环境不稳定的问题

  • 马里奥
    马里奥 回复

    请教柯老师,你们团队开发的无人集群协同对抗仿真环境可以开源吗,无人集群协同对抗训练代价大吗

  • vinbo
    vinbo 回复

    请问在基于对手建模的对抗 RL 中,如果考虑对手足够智能,那么如何保证算法最后的收敛性?

  • 木丰心
    木丰心 回复

    老师您好:

    1. 这个 CFR 算法适用的是多大规模的多智能体环境?适用于 SC2 这种环境吗?
    2. 这种 Opponent Modeling 看样子大多是两个智能体,对于大规模的问题应该怎么去建模呢?
  • Hai 回复
    请问,多智能体强化学习中训练速度过慢,进行多轮训练仍无法收敛,采用哪种鲁棒优化算法可以进行优化?
  • Mr_wang
    Mr_wang 回复

    请问,一个大型博弈的可利用度如何计算呢?具体来说需要计算两个最佳响应,众多论文中从未提及,那通常是如何计算的呢?

  • wzl1999 回复

    在鲁棒强化学习中一般考虑的都是 MDP 具有不确定性,目标是找到最差的 MDP 对应情况下也具有较好的表现,是否有考虑 reward 具有一定的随机性?增加随机性是否会对原问题产生影响?

  • 随风
    随风 回复
    请问老师,由一般强化学习算法训练产生的策略往往容易在虚拟的仿真环境上过拟合,从而仿真环境和现实系统无法完全匹配,如何设计鲁棒强化学习算法来进行优化?
  • vinbo
    vinbo 回复

    请问无人机端到端的 RL 中,在 Airsim 之类的虚拟环境中可以无限次试错,但是在真实环境中怎么做呢?

  • haha 回复

    请问 Deep cfr 中需要大量的采样,有什么比较好的减小计算量的方法吗?

  • 木丰心
    木丰心 回复

    老师您好:这个 CFR 算法适用的是多大规模的多智能体环境?适用于 SC2 这种环境吗?