seclee

追求卓越，志存高远

https://github.com/derekwin

seclee 追求卓越，志存高远

发布于2023-07-10 14:37:20

请教
各位老师同学们好，想请教个问题，使用神经网络的强化学习算法是否可以绕过马尔可夫性这个前提。即如果是一个延迟奖励环境，采样时间间隔可否设置为小于奖励可被观测到的时间呢？

赞 1

评论 2

浏览 1032

水区