RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
Arbiter

Arbiter

国内一水博!

个人成就
  • 积分
    6
  • 帖子
    3
  • 评论
    2
  • 注册排名
    180
  • 关注了
    0
  • 关注者
    0
  • 帖子
  • 文章
  • Arbiter
    Arbiter Arbiter 国内一水博!
    发布于2022-09-24 16:12:55
    一个强化学习算法,效果不好我们能够归结于数据不好,也就是说探索的效果并不好。 还是说有很多方面,比如模型的泛化性?比如奖励设计的不好?
    赞
    评论
    浏览 782
    水区
  • Arbiter
    Arbiter Arbiter 国内一水博!
    发布于2021-11-30 22:13:14

    如果我想将与环境交互产生的数据保存下来,是用什么方法保存的效率较高?

    如果我想将与环境交互产生的数据保存下来,是用什么方法保存的效率较高,用 pickle,还是用 h5py 还是存储数据库?
    赞
    评论
    浏览 908
    水区
  • Arbiter
    Arbiter Arbiter 国内一水博!
    发布于2021-10-19 23:01:47

    提问:基于势能的奖励应该算作稠密奖励吗?

    请问:基于势能的奖励时每一个时间步都会给定的奖励,应该算作稠密奖励吗?所以利用势能得到的稠密奖励还是否可以利用 HER 提高训练效率和训练效果? 我感觉好像不能,我在看相关论文的时候 HER 是为了稀疏奖励设计的
    赞 1
    评论 1
    浏览 943
    水区
关于 标签 友链