支太行
这家伙很懒,什么都没留下,我不懒0.0
发布于

关于张老师的《Bi-level Actor-Critic for Multi-agent Coordination》复现中的疑问,求解答。

评论(4)
  • 支太行
    支太行 回复
    Justin Justin 2021-12-05 20:25:22
    这种问题直接邮件问作者比在这里发帖有效率很多吧

    是的,我正有这样的想法。哈哈哈,不过感觉老师们可能太忙了,我自己在琢磨一下,也是一个学习过程,实在不理解在写邮件比较好,不然什么都不懂也不行呀。

  • Justin
    Justin 回复
    这种问题直接邮件问作者比在这里发帖有效率很多吧
  • 支太行
    支太行 回复
    瑞昌_cary 瑞昌_cary 2021-12-05 16:08:10

    支同学,您好!我想问一下,离线强化学习训练出的策略模型如何与其他算法进行对比呢?

    我是刚学习的小白,如果您说的是张老师这篇文章的话,我还在跑,具体我不是很清楚,但是目前我认为是利用不同的方法在 BiAC 中跑出的收敛结果进行对比的,文中好像是跑了 100 次,需要一点点去验证,如果有其他问题我们可以加个 q 后续相互学习。如果你也在看这篇文章我们可以加 q 824992902 或者微信 zth18785008431 相互学习呀。

  • 瑞昌_cary
    瑞昌_cary 回复

    支同学,您好!我想问一下,离线强化学习训练出的策略模型如何与其他算法进行对比呢?