sisi_zhou
这家伙很懒,什么都没留下
发布于

强化学习自博弈训练过程中的评价指标

评论(5)
  • sisi_zhou
    sisi_zhou 回复
    sisi_zhou sisi_zhou 2021-11-20 20:28:39

    好的,谢谢老师!我去了解一下!
    我是 beta 衰减用的是分段线性衰减的方式,其余超参数与您论文中所述一致。关于 0.8 与 0.2 我也尝试了一些其他的值(如:0.8 0.5、0.1 0.2……),但是效果均不理想。希望可以得到老师进一步的指点。
    eps = piecewise_decay(k, [0, int(args.n_round * 0.8), args.n_round], [1, 0.2, 0.05])

    把 memory_size 调小之后 mfq 的性能有所提升,感谢老师之前的指点

  • sisi_zhou
    sisi_zhou 回复
    yaodong yaodong 2021-11-20 20:07:37

    这个不看你的代码很难有个结论,而且你目前观测到的现象会和很多超参依赖项有关,比如 beta 的衰减。但是我建议看下这篇帮助理解为什么 Boltzmann policy 对于收敛性是非常必要的(而不是 e-greedy)。

    好的,谢谢老师!我去了解一下!
    我是 beta 衰减用的是分段线性衰减的方式,其余超参数与您论文中所述一致。关于 0.8 与 0.2 我也尝试了一些其他的值(如:0.8 0.5、0.1 0.2……),但是效果均不理想。希望可以得到老师进一步的指点。
    eps = piecewise_decay(k, [0, int(args.n_round * 0.8), args.n_round], [1, 0.2, 0.05])

  • yaodong
    yaodong 回复
    sisi_zhou sisi_zhou 2021-11-20 18:53:09

    非常感谢老师的回复!我去查阅一下相关资料!
    还有一个问题想和您请教一下,我在做 mfq 的实验时,使用您原文中说的 Boltzmann policy,不知道是不是 temperature 衰减方式设置的不合理,在测试时,mfq 的性能要比 mfac 差。后来我又换了 epsilon-greedy 探索策略,得到的结果要比使用 Boltzmann policy 好,但还是不如 mfac,可能是哪些原因导致的呢?

    这个不看你的代码很难有个结论,而且你目前观测到的现象会和很多超参依赖项有关,比如 beta 的衰减。但是我建议看下这篇帮助理解为什么 Boltzmann policy 对于收敛性是非常必要的(而不是 e-greedy)。

  • sisi_zhou
    sisi_zhou 回复
    yaodong yaodong 2021-11-20 18:23:22

    Halo:

    你的第一个问题,不是很明白。奖励函数收敛的时候效果更好不正是我们想看到的么?

    第二个问题,关于自博弈中的策略评价问题,也就是你说的评价指标,是个核心问题。这直接影响到自博弈的效率。简单的答案是:没有 1 个 golden standard 的指标。人们目前用的最多是 Nash(relative population performance), 也就是 PSRO 系列算法。可以看我最近的系列 PSRO 的 talk,以及如何评价自博弈种群策略的。 做 MFRL 那会还没有 PSRO 系列工作,用的还只是简单的 self-play (iterated best response to last policy, 也就是 memory size=1 的 fictitious play),事实上后来研究表明,简单的 self-play 会对种群策略的收敛性具有很大挑战,也就是 non-transitivity 问题。这个也在我的 talk 里提到很多,比如这个

    非常感谢老师的回复!我去查阅一下相关资料!
    还有一个问题想和您请教一下,我在做 mfq 的实验时,使用您原文中说的 Boltzmann policy,不知道是不是 temperature 衰减方式设置的不合理,在测试时,mfq 的性能要比 mfac 差。后来我又换了 epsilon-greedy 探索策略,得到的结果要比使用 Boltzmann policy 好,但还是不如 mfac,可能是哪些原因导致的呢?

  • yaodong
    yaodong 回复

    Halo:

    你的第一个问题,不是很明白。奖励函数收敛的时候效果更好不正是我们想看到的么?

    第二个问题,关于自博弈中的策略评价问题,也就是你说的评价指标,是个核心问题。这直接影响到自博弈的效率。简单的答案是:没有 1 个 golden standard 的指标。人们目前用的最多是 Nash(relative population performance), 也就是 PSRO 系列算法。可以看我最近的系列 PSRO 的 talk,以及如何评价自博弈种群策略的。 做 MFRL 那会还没有 PSRO 系列工作,用的还只是简单的 self-play (iterated best response to last policy, 也就是 memory size=1 的 fictitious play),事实上后来研究表明,简单的 self-play 会对种群策略的收敛性具有很大挑战,也就是 non-transitivity 问题。这个也在我的 talk 里提到很多,比如这个