RLChina 强化学习社区
发表
发动态
发帖子
登录/注册
首页
话题
发动态
发帖子
消息
登录/注册
最新
推荐
关注
X
xlq
这家伙很懒,什么都没留下
个人成就
积分
3
帖子
1
评论
2
注册排名
2906
关注了
0
关注者
0
帖子
文章
X
X
xlq
这家伙很懒,什么都没留下
发布于2024-10-21 19:55:11
有关PPO里面的重要性采样权重的疑问?
为什么我看网上大多数代码再计算重要性采样权重的时候用的是(新策略-旧策略)的 e 指数来计算的,但是书上和资料上不都是直接相除的吗?但是我改成相除发现效果又很差,有没有大佬知道为什么要取指数?
赞
评论
4
浏览
199
课程学习
到底啦