RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

前沿进展五:应用多智能体强化学习解决现实问题——机遇和挑战

评论(26)
  • 孙罗洋 中科院自动化研究所
    hh hh 2022-08-25 09:50:22
    方老师对RL解决环境动物保护讲的鞭辟入里,从实际问题中建模的能力非常关键,以何种方式把握哪些因素可以更有效的建模,希望听听老师的见解。

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 孙罗洋 中科院自动化研究所
    dd dd 2022-08-25 09:12:29

    老师您好,想请问在将多智能体强化学习的应用研究中,怎样去发现一个很好的应用问题?使得这个问题既能够在研究之后能够被很好地解决,又不显得 trivial?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 孙罗洋 中科院自动化研究所
    qazcy1983 qazcy1983 2022-08-25 10:12:02

    老师好!想请问一下有关博弈论的问题,在博弈论中也存在个体理性与集体理性冲突的问题,会形成 social dilemma。另外,人类在决策过程中往往是有限理性的,感觉在很多情况下,用 Nash 均衡不一定是很好的目标。在您的工作中,会把博弈论和很多社会现实问题联系在一起,会考虑人类的非理性行为吗?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • 马里奥
    马里奥 回复

    请教一下柯老师:您团队开发的无人集群的仿真环境有开源吗,多智能体 RL 算法在无人集群中的仿真计算量大吗?

  • Rewrite
    Rewrite 回复
    Rewrite Rewrite 2022-08-25 11:28:58

    安老师您好,请问通过 local encoding 计算 global encoding 有什么好的方法吗,您提到的大规模动作表征是离散还是连续的,如果是连续的有什么好的表征方法吗?

    不好意思发错了

  • Rewrite
    Rewrite 回复

    安老师您好,请问通过 local encoding 计算 global encoding 有什么好的方法吗,您提到的大规模动作表征是离散还是连续的,如果是连续的有什么好的表征方法吗?

  • rl-gou 回复

    解决实际问题如何设计 reward?

  • 菩提无树 回复

    方老师,你好!目前对盗猎者和护林员的建模都是考虑 1 个(伙)盗猎者和 1 个(伙)护林员,如果是多个盗猎者之间分工协作和护林员之间分工协作策略,模型和求解方法是否适用,需要考虑哪些地方的变化吗?

  • Umr2015 回复
    U Umr2015 2022-08-25 10:11:04

    提问: 方老师好,请问强化学习的可解释性的问题是深度强化学习带来的吗?谢谢

    另外,请问 MARL 为什么需要 interpretable 呢?谢谢

  • qazcy1983
    qazcy1983 回复

    请问老师,有关 RL 的可解释性的问题,RL 和最优控制有很强的联系。在最优控制领域中,大家都不会去讨论可解释性的问题。为何在 RL 的社区中,会有很多的研究者关注可解释性呢?

  • 米祈睿
    米祈睿 回复

    请问老师,在解决实际问题时,如何减小仿真环境和真实环境差距呢?真实环境如此复杂,如何保证仿真中训练好的 model 能够有效地用在现实问题中?

  • qazcy1983
    qazcy1983 回复

    老师好!想请问一下有关博弈论的问题,在博弈论中也存在个体理性与集体理性冲突的问题,会形成 social dilemma。另外,人类在决策过程中往往是有限理性的,感觉在很多情况下,用 Nash 均衡不一定是很好的目标。在您的工作中,会把博弈论和很多社会现实问题联系在一起,会考虑人类的非理性行为吗?

  • Umr2015 回复

    提问: 方老师好,请问强化学习的可解释性的问题是深度强化学习带来的吗?谢谢

  • z
    z 回复
    方老师好,防御者和攻击者所采用的策略是否可以应用到捕食者和猎物应用中,采用shapley值进行求解与解释?
  • qazcy1983
    qazcy1983 回复

    老师好!请问一下,关于盗猎那个工作(AAAI-19),用单 agent DQN 做决策,输入的数据是什么?是网格后的图片吗?另外,对于 RL 模型的训练是 online 实现的吗?训练数据是如何收集的,需要很大的数据量吗?关于盗猎那个工作(AAAI-19),用单 agent DQN 做决策,输入的数据是什么?是网格后的图片吗?另外,对于 RL 模型的训练是 online 实现的吗?训练数据是如何收集的,需要很大的数据量吗?

  • vinbo
    vinbo 回复

    请问在实际应用中,会不会出现对对手行为建模的不完全而导致博弈论无法求解呢?

  • kunta 回复

    提问:请问老师,您在讲座中提到遥感图像在动物保护中的应用,目前遥感图像鲜有在强化学习上的应用,一般作为补充信息。请问遥感图像与强化学习的结合有那些挑战和机遇?

  • Synx#254 回复

    老师您好,在制定护林员巡逻路线案例中,我们怎样评估一个巡逻路线的随机性的高低呢?或者在偷猎者路线未知的情况下,我们如何评价一个路线的好坏,有什么量化的指标吗?

  • HalfLarry
    HalfLarry 回复

    提问:请问方老师,在现实问题中应用强化学习技术,其算法收敛性一般而言是不是有较大挑战?一般是如何处理难以收敛的问题的?

  • hh
    hh 回复
    方老师对RL解决环境动物保护讲的鞭辟入里,从实际问题中建模的能力非常关键,以何种方式把握哪些因素可以更有效的建模,希望听听老师的见解。
  • wzx
    wzx 回复

    方老师您好!请问强化学习在自动驾驶方面前景如何呀??

  • bean 回复

    请问 MARL 在 robotics 上面的应用有哪些呢

  • Zxy
    Zxy 回复

    方老师,您好!您参与的 rescue 的那个算法设计,和目前使用的网约车调度算法有何异同呢?

  • 明媚阳光
    明媚阳光 回复

    老师您好,请问您之前说的巡逻船保护渡轮的工作,有没有相关的论文发表呢?

  • dd
    dd 回复

    老师您好,想请问在将多智能体强化学习的应用研究中,怎样去发现一个很好的应用问题?使得这个问题既能够在研究之后能够被很好地解决,又不显得 trivial?

  • vinbo
    vinbo 回复

    方老师去年的抓捕盗猎工作印象深刻,不知道今年会有什么新的内容出现呢?