咨询，强化学习求解类似max f=g(x1,x2,x3）

水区

浏览 (1320) 点赞 (1) 收藏

木棉 2021-10-08 21:34:30 回复

 杜雅丽 (招博后/博士) 2021-10-08 17:34:51

可以看看 RLchina 暑期课程的多智能体部分课件视频，先有个大致了解再看 paper

收到，谢谢杜老师。
杜雅丽 (招博后/博士) 2021-10-08 17:34:51 回复

 木棉 2021-10-07 17:46:40

嗯，好的谢谢老师。您能不能推荐几篇入门级文献呀？如有代码就更完美了。我这菜鸟，刚入行没几天，缺太多了🙁 。

可以看看 RLchina 暑期课程的多智能体部分课件视频，先有个大致了解再看 paper
木棉 2021-10-07 17:46:40 回复

 杜雅丽 (招博后/博士) 2021-10-01 19:25:55

MARL 算法可以对动作空间做分解，比如 f=g1(x1)*g2(x2)*g3(x3)，来降低 action space 大小。但相关的方法还有很多，需要看具体问题。

嗯，好的谢谢老师。您能不能推荐几篇入门级文献呀？如有代码就更完美了。我这菜鸟，刚入行没几天，缺太多了🙁 。
木棉 2021-10-07 17:39:51 回复

 vinbo 2021-10-01 20:42:41

RL 是用来解 MDP 的，一个静态函数为什么要用 RL 来解？

想做上下层博弈学习，上层（1个leader）往下层传递三个参数(3个follow er）。leader的收益函数类似f(x1x2x3),follow就是各管各。
vinbo 2021-10-01 20:42:41 回复

RL 是用来解 MDP 的，一个静态函数为什么要用 RL 来解？
杜雅丽 (招博后/博士) 2021-10-01 19:25:55 回复

MARL 算法可以对动作空间做分解，比如 f=g1(x1)*g2(x2)*g3(x3)，来降低 action space 大小。但相关的方法还有很多，需要看具体问题。