评论(9)
请
登录后发表观点
- 为什么不输出一个分配概率呢 做softmax概率和为1 这样就可以保证和为100了
- 是否可以考虑给每一个agent设限制,比如训练后平均收益每个不超过25,或这个每个agent的收益给出一个分布,高收益概率尽可能小一些等,不过这样可能会出现总体收益不足100 或者有异常值超出100.我也不是很懂,哈哈哈。总觉得要有总体约束又要考虑分布训练,不太好弄。是的,很困难
- 是否可以考虑给每一个agent设限制,比如训练后平均收益每个不超过25,或这个每个agent的收益给出一个分布,高收益概率尽可能小一些等,不过这样可能会出现总体收益不足100 或者有异常值超出100.我也不是很懂,哈哈哈。总觉得要有总体约束又要考虑分布训练,不太好弄。
- 可是这个系统本身就是个自由度为3的系统,为什么要引入这么一个约束强加第四个变量因为我的研究问题是资源分配问题,相当于为每个智能体做出资源分配决策,所有为每个智能体所分配的资源之和应该等于总资源量,但我又采用分布式算法来做出决策,所以感觉分布式算法无法保证一个集中式约束,感觉很困惑
- 只需要学习控制前三个智能体的动作,第四个智能体的动作由约束给出但是这样做动作的话,每个智能体在做出自身的动作之前,岂不是要预先知道其他智能体的动作,我是需要采用纯分布式来做出决策,每个智能体仅根据自身的观察来做出决策,感觉还是想不通如何采用分布式方法来控制一个集中式的约束
- 可以转化成一个3-agent的问题,把约束去掉不太明白,可以具体阐述下吗
- 可以转化成一个3-agent的问题,把约束去掉