这家伙很懒,什么都没留下
发布于

RL落地路线的疑问

评论(4)
  • wjh720 回复

    我觉得你说得对

  • zhouqidada
    zhouqidada 回复

    很有意思的问题。我认为在 model based 应用方向有两个比较有意思的地方。第一个我觉得一部分 MBRL 方法其实和控制里的 mpc,以及传统的 search based AI 很难区分。如果第一代知道围棋规则的 alpha go 也被划分为 model is known 的 MBRL 的话,MBRL 是不需要在有一个可以快速仿真的模拟器的情况下继续学习 model 的。这一大类 model is known 的方法应用场景相对于更明确,是对传统 search based 或 MPC 的替代。
    ​第二个是什么时候需要 learned model。我觉得有几种情况: 学的模型更准确,仿真器计算效率过低,或暂时没有仿真器初期的技术验证。我认为 learned model 很难替代仿真器的作用。
    仿真器 +MFRL+Transfer 这一技术路线的主要优势我觉得还是在于决策时省去了利用 model 进行推断的计算开销。如果 MBRL 的 model 是基于仿真器进行学习到的话,还有个优势是不必承受 learned model 的额外误差。但如果 MFRL 是基于仿真器学习,MBRL 的 model 是基于真实数据拟合,那我觉得这两在应用上的比较很难有直接结论。

  • 赵鉴 回复
    张海峰 张海峰 2022-05-30 16:04:18

    很好的问题,我个人理解,有一些场景,即使有了环境模型,还是没法用传统方法解决。最容易理解的例子就是围棋,AlphaGo 确实是把一个已知规则的问题当做不知道规则,用 model-free 的方法解决的,所以这个逻辑是没问题的。对于落地的场景,比如一个复杂的供应链优化问题,也就可以先建仿真器,再用 model-free RL 解决了。只要传统算法没有在该问题上达到最优解,那么用 RL 就还是有可能达到更好的效果。

    非常感谢张老师的回复啊。我也是从个人理解上补充一下。我觉得即使是围棋这个问题,其实它也吃了一些有模型的红利,例如在同一 state 下可以尝试多种动作,以便可以做一些 search(MCTS)。而我们常用的环境无论是单智能体还是多智能体,例如 atari,mujuco, SMAC, 在同一状态下都只能尝试做一种动作,直到游戏结束,这些问题我们还是当模型未知,或者说 gamecore 是黑盒,且不允许回退(“悔棋”)的 RL 问题去解。
    从我个人经历来看,rule-based 方法和 RL 方法进行结合往往“性价比”是最高的。当然也有反例 AlphaGo,AlphaGo 系列的工作是否有“炫技”的成分,结合规则做围棋 AI 是否可以成本更低,这个我也不是特别确定。
    总之呢,我个人觉得环境模型(model)本身一定带有“信息量”,目前的落地场景仍用 model-free RL 去解,可能还是因为没有很好的模型已知 online RL 方法。这方面的工作我确定看到的不多(至少有 model,可以在状态下多试几种动作嘛,哈哈哈),实际场景也用 planning 或者 search 偏多。所以才造成说目前主流的一些 RL 工作有点落地困难的感觉。

  • 张海峰
    张海峰 回复

    很好的问题,我个人理解,有一些场景,即使有了环境模型,还是没法用传统方法解决。最容易理解的例子就是围棋,AlphaGo 确实是把一个已知规则的问题当做不知道规则,用 model-free 的方法解决的,所以这个逻辑是没问题的。对于落地的场景,比如一个复杂的供应链优化问题,也就可以先建仿真器,再用 model-free RL 解决了。只要传统算法没有在该问题上达到最优解,那么用 RL 就还是有可能达到更好的效果。