强化学习自博弈训练过程中的评价指标

水区

浏览 (1741) 点赞 (1) 收藏

sisi_zhou 2021-11-25 09:22:46 回复

 sisi_zhou 2021-11-20 20:28:39

好的，谢谢老师！我去了解一下！
我是 beta 衰减用的是分段线性衰减的方式，其余超参数与您论文中所述一致。关于 0.8 与 0.2 我也尝试了一些其他的值（如：0.8 0.5、0.1 0.2……），但是效果均不理想。希望可以得到老师进一步的指点。
eps = piecewise_decay(k, [0, int(args.n_round * 0.8), args.n_round], [1, 0.2, 0.05])

把 memory_size 调小之后 mfq 的性能有所提升，感谢老师之前的指点
sisi_zhou 2021-11-20 20:28:39 回复

 yaodong 2021-11-20 20:07:37

这个不看你的代码很难有个结论，而且你目前观测到的现象会和很多超参依赖项有关，比如 beta 的衰减。但是我建议看下这篇帮助理解为什么 Boltzmann policy 对于收敛性是非常必要的（而不是 e-greedy）。

好的，谢谢老师！我去了解一下！
我是 beta 衰减用的是分段线性衰减的方式，其余超参数与您论文中所述一致。关于 0.8 与 0.2 我也尝试了一些其他的值（如：0.8 0.5、0.1 0.2……），但是效果均不理想。希望可以得到老师进一步的指点。
eps = piecewise_decay(k, [0, int(args.n_round * 0.8), args.n_round], [1, 0.2, 0.05])
yaodong 2021-11-20 20:07:37 回复

 sisi_zhou 2021-11-20 18:53:09

非常感谢老师的回复！我去查阅一下相关资料！
还有一个问题想和您请教一下，我在做 mfq 的实验时，使用您原文中说的 Boltzmann policy，不知道是不是 temperature 衰减方式设置的不合理，在测试时，mfq 的性能要比 mfac 差。后来我又换了 epsilon-greedy 探索策略，得到的结果要比使用 Boltzmann policy 好，但还是不如 mfac，可能是哪些原因导致的呢？

这个不看你的代码很难有个结论，而且你目前观测到的现象会和很多超参依赖项有关，比如 beta 的衰减。但是我建议看下这篇帮助理解为什么 Boltzmann policy 对于收敛性是非常必要的（而不是 e-greedy）。
sisi_zhou 2021-11-20 18:53:09 回复

 yaodong 2021-11-20 18:23:22

Halo:

你的第一个问题，不是很明白。奖励函数收敛的时候效果更好不正是我们想看到的么？

第二个问题，关于自博弈中的策略评价问题，也就是你说的评价指标，是个核心问题。这直接影响到自博弈的效率。简单的答案是：没有 1 个 golden standard 的指标。人们目前用的最多是 Nash(relative population performance), 也就是 PSRO 系列算法。可以看我最近的系列 PSRO 的 talk，以及如何评价自博弈种群策略的。做 MFRL 那会还没有 PSRO 系列工作，用的还只是简单的 self-play （iterated best response to last policy, 也就是 memory size=1 的 fictitious play），事实上后来研究表明，简单的 self-play 会对种群策略的收敛性具有很大挑战，也就是 non-transitivity 问题。这个也在我的 talk 里提到很多，比如这个。

非常感谢老师的回复！我去查阅一下相关资料！
还有一个问题想和您请教一下，我在做 mfq 的实验时，使用您原文中说的 Boltzmann policy，不知道是不是 temperature 衰减方式设置的不合理，在测试时，mfq 的性能要比 mfac 差。后来我又换了 epsilon-greedy 探索策略，得到的结果要比使用 Boltzmann policy 好，但还是不如 mfac，可能是哪些原因导致的呢？
yaodong 2021-11-20 18:23:22 回复

Halo:

你的第一个问题，不是很明白。奖励函数收敛的时候效果更好不正是我们想看到的么？

第二个问题，关于自博弈中的策略评价问题，也就是你说的评价指标，是个核心问题。这直接影响到自博弈的效率。简单的答案是：没有 1 个 golden standard 的指标。人们目前用的最多是 Nash(relative population performance), 也就是 PSRO 系列算法。可以看我最近的系列 PSRO 的 talk，以及如何评价自博弈种群策略的。做 MFRL 那会还没有 PSRO 系列工作，用的还只是简单的 self-play （iterated best response to last policy, 也就是 memory size=1 的 fictitious play），事实上后来研究表明，简单的 self-play 会对种群策略的收敛性具有很大挑战，也就是 non-transitivity 问题。这个也在我的 talk 里提到很多，比如这个。