RLChina RLChina 是由国内外强化学习学者联合发起的民间学术组织，主要活动包括举办强化学习线上公开课、强化学习线上研讨会等，旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。

发布于 2022-08-09 13:16:03

前沿进展五：应用多智能体强化学习解决现实问题——机遇和挑战

课程学习

浏览 (1282) 点赞 (5) 收藏

孙罗洋中科院自动化研究所 2022-08-25 17:31:26 回复

 hh 2022-08-25 09:50:22

方老师对RL解决环境动物保护讲的鞭辟入里，从实际问题中建模的能力非常关键，以何种方式把握哪些因素可以更有效的建模，希望听听老师的见解。

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
孙罗洋中科院自动化研究所 2022-08-25 17:31:17 回复

 dd 2022-08-25 09:12:29

老师您好，想请问在将多智能体强化学习的应用研究中，怎样去发现一个很好的应用问题？使得这个问题既能够在研究之后能够被很好地解决，又不显得 trivial？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
孙罗洋中科院自动化研究所 2022-08-25 17:31:03 回复

 qazcy1983 2022-08-25 10:12:02

老师好！想请问一下有关博弈论的问题，在博弈论中也存在个体理性与集体理性冲突的问题，会形成 social dilemma。另外，人类在决策过程中往往是有限理性的，感觉在很多情况下，用 Nash 均衡不一定是很好的目标。在您的工作中，会把博弈论和很多社会现实问题联系在一起，会考虑人类的非理性行为吗？

感谢这位同学的提问，恭喜获赠书籍！RLChina 强化学习社区后续会送出，请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com
马里奥 2022-08-25 14:54:29 回复

请教一下柯老师：您团队开发的无人集群的仿真环境有开源吗，多智能体 RL 算法在无人集群中的仿真计算量大吗？
Rewrite 2022-08-25 11:37:38 回复

 Rewrite 2022-08-25 11:28:58

安老师您好，请问通过 local encoding 计算 global encoding 有什么好的方法吗，您提到的大规模动作表征是离散还是连续的，如果是连续的有什么好的表征方法吗？

不好意思发错了
Rewrite 2022-08-25 11:28:58 回复

安老师您好，请问通过 local encoding 计算 global encoding 有什么好的方法吗，您提到的大规模动作表征是离散还是连续的，如果是连续的有什么好的表征方法吗？
R

rl-gou 2022-08-25 10:28:57 回复

解决实际问题如何设计 reward？
菩

菩提无树 2022-08-25 10:20:41 回复

方老师，你好！目前对盗猎者和护林员的建模都是考虑 1 个(伙)盗猎者和 1 个（伙）护林员，如果是多个盗猎者之间分工协作和护林员之间分工协作策略，模型和求解方法是否适用，需要考虑哪些地方的变化吗？
U

Umr2015 2022-08-25 10:19:32 回复

U Umr2015 2022-08-25 10:11:04

提问：方老师好，请问强化学习的可解释性的问题是深度强化学习带来的吗？谢谢

另外，请问 MARL 为什么需要 interpretable 呢？谢谢
qazcy1983 2022-08-25 10:18:54 回复

请问老师，有关 RL 的可解释性的问题，RL 和最优控制有很强的联系。在最优控制领域中，大家都不会去讨论可解释性的问题。为何在 RL 的社区中，会有很多的研究者关注可解释性呢？
米祈睿 2022-08-25 10:16:27 回复

请问老师，在解决实际问题时，如何减小仿真环境和真实环境差距呢？真实环境如此复杂，如何保证仿真中训练好的 model 能够有效地用在现实问题中？
qazcy1983 2022-08-25 10:12:02 回复

老师好！想请问一下有关博弈论的问题，在博弈论中也存在个体理性与集体理性冲突的问题，会形成 social dilemma。另外，人类在决策过程中往往是有限理性的，感觉在很多情况下，用 Nash 均衡不一定是很好的目标。在您的工作中，会把博弈论和很多社会现实问题联系在一起，会考虑人类的非理性行为吗？
U

Umr2015 2022-08-25 10:11:04 回复

提问：方老师好，请问强化学习的可解释性的问题是深度强化学习带来的吗？谢谢
z 2022-08-25 10:10:36 回复

方老师好，防御者和攻击者所采用的策略是否可以应用到捕食者和猎物应用中，采用shapley值进行求解与解释？
qazcy1983 2022-08-25 10:10:28 回复

老师好！请问一下，关于盗猎那个工作(AAAI-19)，用单 agent DQN 做决策，输入的数据是什么？是网格后的图片吗？另外，对于 RL 模型的训练是 online 实现的吗？训练数据是如何收集的，需要很大的数据量吗？关于盗猎那个工作(AAAI-19)，用单 agent DQN 做决策，输入的数据是什么？是网格后的图片吗？另外，对于 RL 模型的训练是 online 实现的吗？训练数据是如何收集的，需要很大的数据量吗？
vinbo 2022-08-25 10:08:13 回复

请问在实际应用中，会不会出现对对手行为建模的不完全而导致博弈论无法求解呢？
K

kunta 2022-08-25 10:01:20 回复

提问：请问老师，您在讲座中提到遥感图像在动物保护中的应用，目前遥感图像鲜有在强化学习上的应用，一般作为补充信息。请问遥感图像与强化学习的结合有那些挑战和机遇？
S

Synx#254 2022-08-25 09:58:32 回复

老师您好，在制定护林员巡逻路线案例中，我们怎样评估一个巡逻路线的随机性的高低呢？或者在偷猎者路线未知的情况下，我们如何评价一个路线的好坏，有什么量化的指标吗？
HalfLarry 2022-08-25 09:50:48 回复

提问：请问方老师，在现实问题中应用强化学习技术，其算法收敛性一般而言是不是有较大挑战？一般是如何处理难以收敛的问题的？
hh 2022-08-25 09:50:22 回复

方老师对RL解决环境动物保护讲的鞭辟入里，从实际问题中建模的能力非常关键，以何种方式把握哪些因素可以更有效的建模，希望听听老师的见解。
wzx 2022-08-25 09:48:02 回复

方老师您好！请问强化学习在自动驾驶方面前景如何呀？？
B

bean 2022-08-25 09:45:50 回复

请问 MARL 在 robotics 上面的应用有哪些呢
Zxy 2022-08-25 09:26:31 回复

方老师，您好！您参与的 rescue 的那个算法设计，和目前使用的网约车调度算法有何异同呢？
明媚阳光 2022-08-25 09:23:51 回复

老师您好，请问您之前说的巡逻船保护渡轮的工作，有没有相关的论文发表呢？
dd 2022-08-25 09:12:29 回复

老师您好，想请问在将多智能体强化学习的应用研究中，怎样去发现一个很好的应用问题？使得这个问题既能够在研究之后能够被很好地解决，又不显得 trivial？
vinbo 2022-08-11 19:12:10 回复

方老师去年的抓捕盗猎工作印象深刻，不知道今年会有什么新的内容出现呢？