Arbiter

国内一水博！

Arbiter 国内一水博！

发布于2022-09-24 16:12:55

一个强化学习算法，效果不好我们能够归结于数据不好，也就是说探索的效果并不好。还是说有很多方面，比如模型的泛化性？比如奖励设计的不好？

赞

评论

浏览 939

水区
Arbiter 国内一水博！

发布于2021-11-30 22:13:14

如果我想将与环境交互产生的数据保存下来，是用什么方法保存的效率较高？
如果我想将与环境交互产生的数据保存下来，是用什么方法保存的效率较高，用 pickle，还是用 h5py 还是存储数据库？

赞

评论

浏览 1035

水区
Arbiter 国内一水博！

发布于2021-10-19 23:01:47

提问：基于势能的奖励应该算作稠密奖励吗?
请问：基于势能的奖励时每一个时间步都会给定的奖励，应该算作稠密奖励吗？所以利用势能得到的稠密奖励还是否可以利用 HER 提高训练效率和训练效果？我感觉好像不能，我在看相关论文的时候 HER 是为了稀疏奖励设计的

赞 1

评论 1

浏览 1067

水区