木棉
这家伙很懒,什么都没留下
发布于

咨询,强化学习求解类似max f=g(x1,x2,x3)

评论(6)
  • 木棉
    木棉 回复
    杜雅丽 (招博后/博士) 杜雅丽 (招博后/博士) 2021-10-08 17:34:51

    可以看看 RLchina 暑期课程的多智能体部分课件视频,先有个大致了解再看 paper

    收到,谢谢杜老师。

  • 杜雅丽 (招博后/博士)
    木棉 木棉 2021-10-07 17:46:40
    嗯,好的谢谢老师。您能不能推荐几篇入门级文献呀?如有代码就更完美了。我这菜鸟,刚入行没几天,缺太多了🙁 。

    可以看看 RLchina 暑期课程的多智能体部分课件视频,先有个大致了解再看 paper

  • 木棉
    木棉 回复
    杜雅丽 (招博后/博士) 杜雅丽 (招博后/博士) 2021-10-01 19:25:55

    MARL 算法可以对动作空间做分解,比如 f=g1(x1)*g2(x2)*g3(x3),来降低 action space 大小。但相关的方法还有很多,需要看具体问题。

    嗯,好的谢谢老师。您能不能推荐几篇入门级文献呀?如有代码就更完美了。我这菜鸟,刚入行没几天,缺太多了🙁 。
  • 木棉
    木棉 回复
    vinbo vinbo 2021-10-01 20:42:41

    RL 是用来解 MDP 的,一个静态函数为什么要用 RL 来解?

    想做上下层博弈学习,上层(1个leader)往下层传递三个参数(3个follow er)。leader的收益函数类似f(x1x2x3),follow就是各管各。
  • vinbo
    vinbo 回复

    RL 是用来解 MDP 的,一个静态函数为什么要用 RL 来解?

  • 杜雅丽 (招博后/博士)

    MARL 算法可以对动作空间做分解,比如 f=g1(x1)*g2(x2)*g3(x3),来降低 action space 大小。但相关的方法还有很多,需要看具体问题。