RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • vivian
    vivian vivian 这家伙很懒,什么都没留下
    发布于2021-10-09 16:39:50

    求问面试题: MC和TD分别是无偏估计吗,为什么?MC、TD谁的方差大,为什么?

    感谢回复,总结翻译 + 个人理解如下: MC 使用真实 return(Gt)估计 TD 使用贝尔曼方程进行自举来估计 真实值为期望 return(Gt) MC 中使用的估计值是源于真实回报的采样,与真实值具有相同的期望,因此 MC 是无偏估计;TD 方...
    赞 2
    评论 4
    浏览 1793
    课程学习
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于2023-06-08 20:55:36

    Awesome 论文合集 |如何追踪 MCTS 的前沿动态?来看看 LightZero 旗下的蒙特卡洛树搜索论文合集吧!(1)

    AlphaGo 对李世石五番棋 2016 年 AlphaGo [1] 与李世石的世纪对决可谓是开启了近十年来人工智能技术探索和发展的浪潮。在围棋这一人类最经典优美的智力游戏上,传统的搜索算法往往迷失在浩如烟海的搜索空间中,朴素的神经网络设计也难以捕捉复杂多...
    赞
    评论
    浏览 715
    论文研讨
签到
0
立即签到
合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 2024 大会(可下载课件):http://rlchina.org/rlchina_2024

三、RLChina 2023 大会(可下载课件):http://rlchina.org/rlchina_2023

四、RLChina 2022 强化学习暑期课:http://rlchina.org/topic/491

五、RLChina 2021 强化学习暑期课:http://rlchina.org/topic/9?utm_source=pocket_saves

六、RLChina 智能体挑战赛:http://rlchina.org/topic/928

七、RLChina 前沿讲习班:http://rlchina.org/topic/215

八、RLChina 论文研讨会:http://rlchina.org/topic/219

积分排行
  • Carlos
    Carlos

    2 帖子 • 4 评论

    957
  • Frei0d
    Frei0d

    1 帖子 • 9 评论

    900
  • R
    Rlxia

    0 帖子 • 0 评论

    564
  • RLChina
    RLChina

    124 帖子 • 77 评论

    454
  • POLIXIR
    POLIXIR

    44 帖子 • 5 评论

    351
  • Rewrite
    Rewrite

    0 帖子 • 4 评论

    215
  • vinbo
    vinbo

    9 帖子 • 84 评论

    167
  • 支太行
    支太行

    17 帖子 • 34 评论

    133
  • 张海峰
    张海峰

    4 帖子 • 43 评论

    132
  • AINova
    AINova

    20 帖子 • 43 评论

    99
关于 标签 友链