wawa33
这家伙很懒,什么都没留下
评论(2)
请
登录后发表观点
- 看你描述应该是探索问题,没探索到其他的状态应该在actor上想办法。问题一6个agent也不算多。问题二是的,每个agent对回报的贡献是不一样的。问题三,sparse reward更难学。 因为算法的目标是优化累积回报,你方法里的回报定义,累积和加起来是否跟游戏目标一致呢?
感谢指点!
探索的问题不知道存不存在 因为我之前在训练时加了 demo buffer 其他 optimal 时的状态应该有被 visit 到。
sparse reward 的话 reward 就不是用距离了 而是用的是被 cover 到的 landmark 的数量,可能还会用到 HER, 具体我还得再试试 - 看你描述应该是探索问题,没探索到其他的状态应该在actor上想办法。问题一6个agent也不算多。问题二是的,每个agent对回报的贡献是不一样的。问题三,sparse reward更难学。 因为算法的目标是优化累积回报,你方法里的回报定义,累积和加起来是否跟游戏目标一致呢?