RLChina 强化学习社区
发表
发动态
发帖子
登录/注册
首页
话题
发动态
发帖子
消息
登录/注册
最新
推荐
关注
Arbiter
国内一水博!
个人成就
积分
6
帖子
3
评论
2
注册排名
180
关注了
0
关注者
0
帖子
文章
Arbiter
国内一水博!
发布于2022-09-24 16:12:55
一个强化学习算法,效果不好我们能够归结于数据不好,也就是说探索的效果并不好。 还是说有很多方面,比如模型的泛化性?比如奖励设计的不好?
赞
评论
浏览
647
水区
Arbiter
国内一水博!
发布于2021-11-30 22:13:14
如果我想将与环境交互产生的数据保存下来,是用什么方法保存的效率较高?
如果我想将与环境交互产生的数据保存下来,是用什么方法保存的效率较高,用 pickle,还是用 h5py 还是存储数据库?
赞
评论
浏览
782
水区
Arbiter
国内一水博!
发布于2021-10-19 23:01:47
提问:基于势能的奖励应该算作稠密奖励吗?
请问:基于势能的奖励时每一个时间步都会给定的奖励,应该算作稠密奖励吗?所以利用势能得到的稠密奖励还是否可以利用 HER 提高训练效率和训练效果? 我感觉好像不能,我在看相关论文的时候 HER 是为了稀疏奖励设计的
赞
1
评论
1
浏览
821
水区
到底啦