评论(11)
请
登录后发表观点
- 可以考虑这些状态因素是否对决策有影响。 如果没有影响, state embedding需要剔除这部分因素,参考 bisimulation, policy similarity metric等工作。 如果有影响但未知, 就是non-stationarity问题,可以考虑 POMDP。有兴趣可以深入探讨。老师,那pomdp都有哪些算法啊?跟mdp一样的吗?
- 可以考虑这些状态因素是否对决策有影响。 如果没有影响, state embedding需要剔除这部分因素,参考 bisimulation, policy similarity metric等工作。 如果有影响但未知, 就是non-stationarity问题,可以考虑 POMDP。有兴趣可以深入探讨。
- Hi, hkb。请问你说的未知是指环境中的某一部分状态不受agent的动作影响吗?比如在自动驾驶中,路上的行人、变化的天气都属于环境的一部分,但是这些的状态变化都不受到自动驾驶agent的影响。