RLChina 强化学习社区
发表
发动态
发帖子
登录/注册
首页
话题
发动态
发帖子
消息
登录/注册
最新
推荐
关注
seclee
追求卓越,志存高远
https://github.com/derekwin
个人成就
积分
45
帖子
2
评论
7
注册排名
457
关注了
6
关注者
0
帖子
文章
seclee
追求卓越,志存高远
发布于2023-07-10 14:37:20
请教
各位老师同学们好,想请教个问题,使用神经网络的强化学习算法是否可以绕过马尔可夫性这个前提。 即如果是一个延迟奖励环境,采样时间间隔可否设置为小于奖励可被观测到的时间呢?
赞
1
评论
2
浏览
507
水区
到底啦