这家伙很懒,什么都没留下
发布于
评论(9)
  • 入门炼丹师
    入门炼丹师 回复
    为什么不输出一个分配概率呢 做softmax概率和为1 这样就可以保证和为100了
  • xyhk96 回复
    支太行 支太行 2021-12-10 12:54:48
    是否可以考虑给每一个agent设限制,比如训练后平均收益每个不超过25,或这个每个agent的收益给出一个分布,高收益概率尽可能小一些等,不过这样可能会出现总体收益不足100 或者有异常值超出100.我也不是很懂,哈哈哈。总觉得要有总体约束又要考虑分布训练,不太好弄。
    是的,很困难
  • 支太行
    支太行 回复
    是否可以考虑给每一个agent设限制,比如训练后平均收益每个不超过25,或这个每个agent的收益给出一个分布,高收益概率尽可能小一些等,不过这样可能会出现总体收益不足100 或者有异常值超出100.我也不是很懂,哈哈哈。总觉得要有总体约束又要考虑分布训练,不太好弄。
  • xyhk96 回复
    Justin Justin 2021-12-09 15:49:02
    可是这个系统本身就是个自由度为3的系统,为什么要引入这么一个约束强加第四个变量
    因为我的研究问题是资源分配问题,相当于为每个智能体做出资源分配决策,所有为每个智能体所分配的资源之和应该等于总资源量,但我又采用分布式算法来做出决策,所以感觉分布式算法无法保证一个集中式约束,感觉很困惑
  • Justin
    Justin 回复
    X xyhk96 2021-12-09 15:42:29
    但是这样做动作的话,每个智能体在做出自身的动作之前,岂不是要预先知道其他智能体的动作,我是需要采用纯分布式来做出决策,每个智能体仅根据自身的观察来做出决策,感觉还是想不通如何采用分布式方法来控制一个集中式的约束
    可是这个系统本身就是个自由度为3的系统,为什么要引入这么一个约束强加第四个变量
  • xyhk96 回复
    Justin Justin 2021-12-08 23:23:10
    只需要学习控制前三个智能体的动作,第四个智能体的动作由约束给出
    但是这样做动作的话,每个智能体在做出自身的动作之前,岂不是要预先知道其他智能体的动作,我是需要采用纯分布式来做出决策,每个智能体仅根据自身的观察来做出决策,感觉还是想不通如何采用分布式方法来控制一个集中式的约束
  • Justin
    Justin 回复
    X xyhk96 2021-12-08 22:55:51
    不太明白,可以具体阐述下吗
    只需要学习控制前三个智能体的动作,第四个智能体的动作由约束给出
  • xyhk96 回复
    Justin Justin 2021-12-08 21:53:12
    可以转化成一个3-agent的问题,把约束去掉
    不太明白,可以具体阐述下吗
  • Justin
    Justin 回复
    可以转化成一个3-agent的问题,把约束去掉