RLChina 强化学习社区
发表
发动态
发帖子
登录/注册
首页
话题
发动态
发帖子
消息
登录/注册
最新
推荐
关注
M
Minyu
这家伙很懒,什么都没留下
个人成就
积分
8
帖子
4
评论
4
注册排名
714
关注了
0
关注者
0
帖子
文章
M
M
Minyu
这家伙很懒,什么都没留下
发布于2023-01-17 16:27:46
强化学习目标函数的问题
强化学习的目标函数长下面这个样子 这里的 π∈P(S)中的 P(S)应该指的是策略的区间集合,我的问题是如果 S=[a,b]或者其他一个有限区间的话,那么 π 这个概率密度函数是一个定义在[a,b]上的连续的概率密度函数,还是一个在 a 和 b 点分别取...
赞
1
评论
浏览
490
水区
M
M
Minyu
这家伙很懒,什么都没留下
发布于2022-11-09 10:09:51
对于控制的取值属于某个区间的问题
在 RL 里面,通常为了考虑 exploration 和 exploitation,是考虑一个 stochastic action,即从一个概率密度函数中进行抽样,得到一个控制序列{a_t},然后采取在控制系统中采用这个控制序列。 而我的问题是: **1、...
赞
1
评论
浏览
452
水区
M
M
Minyu
这家伙很懒,什么都没留下
发布于2022-05-08 15:48:56
想请教一下为什么maximum entropy(把policy定义成概率密度函数)是有效的
我是做最优控制的,最近接触到 RL 里把 entropy 加入到目标函数中,同时把 policy 从原来的实值函数变成密度函数,可以做到全局最优。但是针对时间一致的问题,在 RL 中也有提到动态规划原则(DPP),根据 DPP 推导出 Hamilton–J...
赞
2
评论
6
浏览
812
水区
到底啦