RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
X

xlq

这家伙很懒,什么都没留下

个人成就
  • 积分
    3
  • 帖子
    1
  • 评论
    2
  • 注册排名
    2906
  • 关注了
    0
  • 关注者
    0
  • 帖子
  • 文章
  • X
    X xlq 这家伙很懒,什么都没留下
    发布于2024-10-21 19:55:11

    有关PPO里面的重要性采样权重的疑问?

    为什么我看网上大多数代码再计算重要性采样权重的时候用的是(新策略-旧策略)的 e 指数来计算的,但是书上和资料上不都是直接相除的吗?但是我改成相除发现效果又很差,有没有大佬知道为什么要取指数?
    赞
    评论 4
    浏览 451
    课程学习
关于 标签 友链