RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
R

rlchina-baishi

这家伙很懒,什么都没留下

个人成就
  • 积分
    5
  • 帖子
    1
  • 评论
    4
  • 注册排名
    2570
  • 关注了
    1
  • 关注者
    0
  • 帖子
  • 文章
  • R
    R rlchina-baishi 这家伙很懒,什么都没留下
    发布于2024-07-16 10:02:13

    多智能体训练中,qmix、vdn发散而ippo缓慢收敛

    代码使用的是 pymarl,环境是 cityflow,评价指标是 average travel time(越小越好),可见 ippo 的评价指标缓慢变小,qmix、vdn 直接发散了。 导致发散的可能原因是什么呢? ippo 收敛慢又是什么原因呢? i...
    赞
    评论 3
    浏览 757
    水区
关于 标签 友链