ppo - 话题 | RLChina 强化学习社区

X

X xlq 这家伙很懒，什么都没留下

发布于2024-10-21 19:55:11

有关PPO里面的重要性采样权重的疑问？
为什么我看网上大多数代码再计算重要性采样权重的时候用的是（新策略-旧策略）的 e 指数来计算的，但是书上和资料上不都是直接相除的吗？但是我改成相除发现效果又很差，有没有大佬知道为什么要取指数？

赞

评论 4

浏览 684

课程学习
daydayup 一份伏特加，加一点青柠，姜汁，啤酒，最重要的是，还有一点爱

发布于2021-10-01 09:43:53

Unity ML-agents | | 强化学习 | | 交流 | | 求助
最近在使用 ML-agents，在阅读他的详细设置和算法上遇到了难题，请问有没有小伙伴或者大佬可以一块交流学习啊，或者能给我指一个改写 PPO 的途径，蟹蟹！问题更新：（主要指 ML-agents 当中 PPO 算法具体输入、具体数据处理、输出都分别在整...

赞 7

评论 13

浏览 2716

经验分享

首次进入社区的小伙伴，欢迎了解以下事项，参与相关活动：

一、RLChina 组织形式：http://rlchina.org/topic/211

二、RLChina 2025 大会：http://rlchina.org/rlchina_2025

三、RLChina 2024 大会（可下载课件）：http://rlchina.org/rlchina_2024

四、RLChina 2023 大会（可下载课件）：http://rlchina.org/rlchina_2023

五、RLChina 2022 强化学习暑期课：http://rlchina.org/topic/491

六、RLChina 2021 强化学习暑期课：http://rlchina.org/topic/9?utm_source=pocket_saves

七、RLChina 智能体挑战赛：http://rlchina.org/topic/928

八、RLChina 前沿讲习班：http://rlchina.org/topic/215

九、RLChina 论文研讨会：http://rlchina.org/topic/219

Frei0d
1 帖子 • 9 评论

1064
Carlos
2 帖子 • 4 评论

957
R
Rlxia
0 帖子 • 0 评论

568
RLChina
124 帖子 • 77 评论

455
POLIXIR
44 帖子 • 5 评论

351
Rewrite
0 帖子 • 4 评论

215
vinbo
9 帖子 • 84 评论

168
支太行
17 帖子 • 34 评论

133
张海峰
4 帖子 • 43 评论

132
AINova
20 帖子 • 43 评论

99