RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

圆桌论道 | 9月3日 WAIC AI 开发者日——决策智能 Workshop 直播

评论(9)
  • lan 回复

    这个游戏的状态观测里会包含哪些信息呢?

  • ClaireGl
    ClaireGl 回复

    策略蒸馏具体是什么概念?需要有哪些注意的地方?有哪些缺点?

  • 这种竞争类的游戏感觉会有中 global 的最优策略,那对于那种没有全局最优策略的多智能体游戏怎么处理呢

  • ClaireGl
    ClaireGl 回复

    老师好!请问基于模型的算法长时间不收敛应该从哪方面考虑?

  • qazcy1983
    qazcy1983 回复

    老师好!请问一下,用 RL 解决组合优化问题比用演化计算的方法求解有什么优势吗?另外,对于神经网络结构搜索或者其他超参数的搜索,用 RL 方法能比 gradient-based 类(DARTS)方法有优势吗?

  • Jasmine
    Jasmine 回复

    我觉得现在机器学习有个问题,就是太黑箱化操作,希望用大数据进行暴力求解,但是忽略关注各种因素之间的因果关系,构建 DAG 图的问题。在统计估计中,数据规模只是一个相对次要的因素,最重要的因素是 DAG 图如何确定,增加节点,减少节点,节点之间的关系等等,才会更贴近现实并提供更准确的求解方案。

  • LiuJ 回复

    你好,老师,我想问一下,我们在搭建强化学习的 agent 决策策略模型时,它的神经网络的隐藏层以及神经元的个数是怎么确定的呢?只能一个个尝试,然后根据结果选择吗?此外,除了深度神经网络模型,还有其他的模型可以作为决策系统的模型吗?

  • 请问这类决策问题是在线的形式嘛(算法与用户交互然后同时更新),然后正好用 A3C 这种算法,SAC 这种能用到嘛

  • Jasmine
    Jasmine 回复

    我之前还有点疑惑 RL 和 RNN LSTM 有什么区别,现在觉得是不是区别就在于 RL 中有个决策优化的环节,但是 RNN LSTM 仅仅是一种监督学习,并不包含优化过程。