强化学习做出一个动作后，如果下一个状态的其中一个是未知的可以吗

hkb 2022-05-25 08:56:51 回复

Y yinuo 2022-05-24 14:34:08

POMDP的话，可以用一些时序结构去提取状态的时序信息。比如说LSTM，Transformer，比如把输入图像的前后几帧连接在一起，放入LSTM中，可以提取到速度这类的信息（从单帧的输入无法推测出来的信息）。

多谢老师，我会再继续学习

Y

yinuo 2022-05-24 14:34:08 回复

H hkb 2022-05-16 10:46:19

老师，那pomdp都有哪些算法啊？跟mdp一样的吗？

POMDP的话，可以用一些时序结构去提取状态的时序信息。比如说LSTM，Transformer，比如把输入图像的前后几帧连接在一起，放入LSTM中，可以提取到速度这类的信息（从单帧的输入无法推测出来的信息）。

H

hkb 2022-05-16 10:46:19 回复

杜雅丽 (招博后/博士) 2022-05-16 01:26:12

可以考虑这些状态因素是否对决策有影响。如果没有影响， state embedding需要剔除这部分因素，参考 bisimulation, policy similarity metric等工作。如果有影响但未知，就是non-stationarity问题，可以考虑 POMDP。有兴趣可以深入探讨。

老师，那pomdp都有哪些算法啊？跟mdp一样的吗？

杜雅丽 (招博后/博士) 2022-05-16 01:26:12 回复

可以考虑这些状态因素是否对决策有影响。如果没有影响， state embedding需要剔除这部分因素，参考 bisimulation, policy similarity metric等工作。如果有影响但未知，就是non-stationarity问题，可以考虑 POMDP。有兴趣可以深入探讨。

H

hkb 2022-05-14 15:41:42 回复

Y yinuo 2022-05-13 14:59:15

能否具体描述一下你的问题呢？你说的“未知”，是指以下的哪种情况呢？ 1. 其中一个环境状态的可观察但不受控（依照某种过程进行变化），但是会对策略产生影响（如自动驾驶中路上的行人、变化的红绿灯等），因此需要考虑这种状态； 2. 其中一个环境状态的可观察但不受控（依照某种过程进行变化），.但是不应该对策略产生影响（如自动驾驶中天空的明暗），因此需要过滤这种状态； 3.其中一个状态不可观察，因此需要推测这种状态

请问该怎么考虑这些状态因素呢？

H

hkb 2022-05-14 15:41:07 回复

H hkb 2022-05-13 16:17:39

第一种

请问该怎么考虑这些状态因素呢？

H

hkb 2022-05-13 16:17:39 回复

Y yinuo 2022-05-13 14:59:15

能否具体描述一下你的问题呢？你说的“未知”，是指以下的哪种情况呢？ 1. 其中一个环境状态的可观察但不受控（依照某种过程进行变化），但是会对策略产生影响（如自动驾驶中路上的行人、变化的红绿灯等），因此需要考虑这种状态； 2. 其中一个环境状态的可观察但不受控（依照某种过程进行变化），.但是不应该对策略产生影响（如自动驾驶中天空的明暗），因此需要过滤这种状态； 3.其中一个状态不可观察，因此需要推测这种状态

第一种

Y

yinuo 2022-05-13 14:59:15 回复

H hkb 2022-05-12 18:37:25

请问该怎么考虑这些状态因素呢？

能否具体描述一下你的问题呢？你说的“未知”，是指以下的哪种情况呢？ 1. 其中一个环境状态的可观察但不受控（依照某种过程进行变化），但是会对策略产生影响（如自动驾驶中路上的行人、变化的红绿灯等），因此需要考虑这种状态； 2. 其中一个环境状态的可观察但不受控（依照某种过程进行变化），.但是不应该对策略产生影响（如自动驾驶中天空的明暗），因此需要过滤这种状态； 3.其中一个状态不可观察，因此需要推测这种状态

H

hkb 2022-05-12 18:37:25 回复

Y yinuo 2022-05-11 20:50:31

Hi, hkb。请问你说的未知是指环境中的某一部分状态不受agent的动作影响吗？比如在自动驾驶中，路上的行人、变化的天气都属于环境的一部分，但是这些的状态变化都不受到自动驾驶agent的影响。

请问该怎么考虑这些状态因素呢？

H

hkb 2022-05-11 22:23:05 回复

Y yinuo 2022-05-11 20:50:31

Hi, hkb。请问你说的未知是指环境中的某一部分状态不受agent的动作影响吗？比如在自动驾驶中，路上的行人、变化的天气都属于环境的一部分，但是这些的状态变化都不受到自动驾驶agent的影响。

嗯嗯是的

Y

yinuo 2022-05-11 20:50:31 回复

Hi, hkb。请问你说的未知是指环境中的某一部分状态不受agent的动作影响吗？比如在自动驾驶中，路上的行人、变化的天气都属于环境的一部分，但是这些的状态变化都不受到自动驾驶agent的影响。