强化学习中关于玻尔兹曼策略(Boltzmann)的例子好像很少？不知道编写的代码对不对。

张海峰 2021-09-24 15:58:38 回复

看起来代码思路是没有问题的，具体每个变量的维度没有说明，不确定有没有 bug，你可以每行都输出来看是不是你预想的结果，观察一下整个运行过程各个变量的变化情况。
木棉 2021-09-24 13:10:36 回复

A = exp(fbs.Q(kk,:)/Tx)/sum(exp(fbs.Q(kk,:)/Tx));
AA = [];
for i=1:size(A,2)
AA = [AA sum(A(1,1:i))];
end
tmp =rand ;
a =min(AA((AA - tmp)>0));
BB = find(AA==a);
index = BB(1,1);%%%-取第一个
这是我玻尔兹曼策略(Boltzmann)的代码（不知对不对？），运行起来，Q 值很快就是负值，再加上 Tx=0.01，矩阵 A 就是全负质量。玻尔兹曼策略(Boltzmann)是不是对 Q 值有什么要求？
张海峰 2021-09-24 12:52:09 回复

照着公式写应该不难的，可以把代码发出来给大家看看哈