Minyu

这家伙很懒，什么都没留下

M

M Minyu 这家伙很懒，什么都没留下

发布于2023-01-17 16:27:46

强化学习目标函数的问题
强化学习的目标函数长下面这个样子这里的 π∈P(S)中的 P(S)应该指的是策略的区间集合，我的问题是如果 S=[a,b]或者其他一个有限区间的话，那么 π 这个概率密度函数是一个定义在[a,b]上的连续的概率密度函数，还是一个在 a 和 b 点分别取...

赞 1

评论

浏览 539

水区
M

M Minyu 这家伙很懒，什么都没留下

发布于2022-11-09 10:09:51

对于控制的取值属于某个区间的问题
在 RL 里面，通常为了考虑 exploration 和 exploitation，是考虑一个 stochastic action，即从一个概率密度函数中进行抽样，得到一个控制序列{a_t}，然后采取在控制系统中采用这个控制序列。而我的问题是： **1、...

赞 1

评论

浏览 504

水区
M

M Minyu 这家伙很懒，什么都没留下

发布于2022-05-08 15:48:56

想请教一下为什么maximum entropy（把policy定义成概率密度函数）是有效的
我是做最优控制的，最近接触到 RL 里把 entropy 加入到目标函数中，同时把 policy 从原来的实值函数变成密度函数，可以做到全局最优。但是针对时间一致的问题，在 RL 中也有提到动态规划原则（DPP），根据 DPP 推导出 Hamilton–J...

赞 2

评论 6

浏览 1038

水区