木棉
这家伙很懒,什么都没留下
发布于

强化学习中关于玻尔兹曼策略(Boltzmann)的例子好像很少?不知道编写的代码对不对。

评论(3)
  • 张海峰
    张海峰 回复

    看起来代码思路是没有问题的,具体每个变量的维度没有说明,不确定有没有 bug,你可以每行都输出来看是不是你预想的结果,观察一下整个运行过程各个变量的变化情况。

  • 木棉
    木棉 回复

    A = exp(fbs.Q(kk,:)/Tx)/sum(exp(fbs.Q(kk,:)/Tx));
    AA = [];
    for i=1:size(A,2)
    AA = [AA sum(A(1,1:i))];
    end
    tmp =rand ;
    a =min(AA((AA - tmp)>0));
    BB = find(AA==a);
    index = BB(1,1);%%%-取第一个
    这是我玻尔兹曼策略(Boltzmann)的代码(不知对不对?),运行起来,Q 值很快就是负值,再加上 Tx=0.01,矩阵 A 就是全负质量。玻尔兹曼策略(Boltzmann)是不是对 Q 值有什么要求?

  • 张海峰
    张海峰 回复

    照着公式写应该不难的,可以把代码发出来给大家看看哈