这家伙很懒,什么都没留下
发布于
评论(11)
  • hkb 回复
    Y yinuo 2022-05-24 14:34:08
    POMDP的话,可以用一些时序结构去提取状态的时序信息。比如说LSTM,Transformer,比如把输入图像的前后几帧连接在一起,放入LSTM中,可以提取到速度这类的信息(从单帧的输入无法推测出来的信息)。
    多谢老师,我会再继续学习
  • yinuo 回复
    H hkb 2022-05-16 10:46:19
    老师,那pomdp都有哪些算法啊?跟mdp一样的吗?
    POMDP的话,可以用一些时序结构去提取状态的时序信息。比如说LSTM,Transformer,比如把输入图像的前后几帧连接在一起,放入LSTM中,可以提取到速度这类的信息(从单帧的输入无法推测出来的信息)。
  • hkb 回复
    杜雅丽 (招博后/博士) 杜雅丽 (招博后/博士) 2022-05-16 01:26:12
    可以考虑这些状态因素是否对决策有影响。 如果没有影响, state embedding需要剔除这部分因素,参考 bisimulation, policy similarity metric等工作。 如果有影响但未知, 就是non-stationarity问题,可以考虑 POMDP。有兴趣可以深入探讨。
    老师,那pomdp都有哪些算法啊?跟mdp一样的吗?
  • 杜雅丽 (招博后/博士)
    可以考虑这些状态因素是否对决策有影响。 如果没有影响, state embedding需要剔除这部分因素,参考 bisimulation, policy similarity metric等工作。 如果有影响但未知, 就是non-stationarity问题,可以考虑 POMDP。有兴趣可以深入探讨。
  • hkb 回复
    Y yinuo 2022-05-13 14:59:15
    能否具体描述一下你的问题呢?你说的“未知”,是指以下的哪种情况呢? 1. 其中一个环境状态的可观察但不受控(依照某种过程进行变化),但是会对策略产生影响(如自动驾驶中路上的行人、变化的红绿灯等),因此需要考虑这种状态; 2. 其中一个环境状态的可观察但不受控(依照某种过程进行变化),.但是不应该对策略产生影响(如自动驾驶中天空的明暗),因此需要过滤这种状态; 3.其中一个状态不可观察,因此需要推测这种状态
    请问该怎么考虑这些状态因素呢?
  • hkb 回复
    H hkb 2022-05-13 16:17:39
    第一种
    请问该怎么考虑这些状态因素呢?
  • hkb 回复
    Y yinuo 2022-05-13 14:59:15
    能否具体描述一下你的问题呢?你说的“未知”,是指以下的哪种情况呢? 1. 其中一个环境状态的可观察但不受控(依照某种过程进行变化),但是会对策略产生影响(如自动驾驶中路上的行人、变化的红绿灯等),因此需要考虑这种状态; 2. 其中一个环境状态的可观察但不受控(依照某种过程进行变化),.但是不应该对策略产生影响(如自动驾驶中天空的明暗),因此需要过滤这种状态; 3.其中一个状态不可观察,因此需要推测这种状态
    第一种
  • yinuo 回复
    H hkb 2022-05-12 18:37:25
    请问该怎么考虑这些状态因素呢?
    能否具体描述一下你的问题呢?你说的“未知”,是指以下的哪种情况呢? 1. 其中一个环境状态的可观察但不受控(依照某种过程进行变化),但是会对策略产生影响(如自动驾驶中路上的行人、变化的红绿灯等),因此需要考虑这种状态; 2. 其中一个环境状态的可观察但不受控(依照某种过程进行变化),.但是不应该对策略产生影响(如自动驾驶中天空的明暗),因此需要过滤这种状态; 3.其中一个状态不可观察,因此需要推测这种状态
  • hkb 回复
    Y yinuo 2022-05-11 20:50:31
    Hi, hkb。请问你说的未知是指环境中的某一部分状态不受agent的动作影响吗?比如在自动驾驶中,路上的行人、变化的天气都属于环境的一部分,但是这些的状态变化都不受到自动驾驶agent的影响。
    请问该怎么考虑这些状态因素呢?
  • hkb 回复
    Y yinuo 2022-05-11 20:50:31
    Hi, hkb。请问你说的未知是指环境中的某一部分状态不受agent的动作影响吗?比如在自动驾驶中,路上的行人、变化的天气都属于环境的一部分,但是这些的状态变化都不受到自动驾驶agent的影响。
    嗯嗯是的
  • yinuo 回复
    Hi, hkb。请问你说的未知是指环境中的某一部分状态不受agent的动作影响吗?比如在自动驾驶中,路上的行人、变化的天气都属于环境的一部分,但是这些的状态变化都不受到自动驾驶agent的影响。