木棉

这家伙很懒，什么都没留下

木棉这家伙很懒，什么都没留下

发布于2023-05-15 19:01:59

Prioritized Experience Replay优先经验回放机制中采样过程中时会出现问题
def sample(self, n): memory_chain = [] b_idx = np.empty((n,), dtype=np.int32) ISWeights = np.empty((n, 1)) print(self.tree.tota...

赞

评论

浏览 839

水区
木棉这家伙很懒，什么都没留下

发布于2021-10-08 23:07:52

RL中Boltzmann策略代码咨询（初学者，求教）
主要问题是，跑着跑着动作分配概率中出现了 NAN，查了查，是因为 fbs.Q(kk,:)中，比如： sumQ(kk,:) ans = 1.0135 1.2124 1.2879 2.0940 2.1277 2.1385 ...

赞 2

评论 3

浏览 1496

水区
木棉这家伙很懒，什么都没留下

发布于2021-10-01 18:25:58

咨询，强化学习求解类似max f=g(x1,x2,x3）
大家好，强化学习求解类似 max f=g(x1,x2,x3)，有啥好的办法？这里 x1,x2,x3 是变量，拟设置动作空间，感觉动作空间太大了。

赞 1

评论 6

浏览 1320

水区
木棉这家伙很懒，什么都没留下

发布于2021-09-30 17:50:13

期待更多的人交流RL
菜鸟来袭，努力学习，期待做一个 RL 小达人。

赞 2

评论

浏览 1101

水区
木棉这家伙很懒，什么都没留下

发布于2021-09-24 00:46:02

强化学习中关于玻尔兹曼策略(Boltzmann)的例子好像很少？不知道编写的代码对不对。
强化学习中关于玻尔兹曼策略(Boltzmann)的例子好像很少？不知道自己编写的代码对不对。

赞 1

评论 3

浏览 2121

水区