蒙特卡洛 - 话题 | RLChina 强化学习社区

vivian 这家伙很懒，什么都没留下

发布于2021-10-09 16:39:50

求问面试题: MC和TD分别是无偏估计吗，为什么？MC、TD谁的方差大，为什么？
感谢回复，总结翻译 + 个人理解如下： MC 使用真实 return（Gt）估计 TD 使用贝尔曼方程进行自举来估计真实值为期望 return（Gt） MC 中使用的估计值是源于真实回报的采样，与真实值具有相同的期望，因此 MC 是无偏估计；TD 方...

赞 3

评论 4

浏览 2371

课程学习
OpenDILab决策智能聚焦科技前沿研究问题，致力于探索下一代人工智能

发布于2023-06-08 20:55:36

Awesome 论文合集｜如何追踪 MCTS 的前沿动态？来看看 LightZero 旗下的蒙特卡洛树搜索论文合集吧！（1）
AlphaGo 对李世石五番棋 2016 年 AlphaGo [1] 与李世石的世纪对决可谓是开启了近十年来人工智能技术探索和发展的浪潮。在围棋这一人类最经典优美的智力游戏上，传统的搜索算法往往迷失在浩如烟海的搜索空间中，朴素的神经网络设计也难以捕捉复杂多...

赞

评论

浏览 1155

论文研讨

首次进入社区的小伙伴，欢迎了解以下事项，参与相关活动：

一、RLChina 组织形式：http://rlchina.org/topic/211

二、RLChina 2025 大会：http://rlchina.org/rlchina_2025

三、RLChina 2024 大会（可下载课件）：http://rlchina.org/rlchina_2024

四、RLChina 2023 大会（可下载课件）：http://rlchina.org/rlchina_2023

五、RLChina 2022 强化学习暑期课：http://rlchina.org/topic/491

六、RLChina 2021 强化学习暑期课：http://rlchina.org/topic/9?utm_source=pocket_saves

七、RLChina 智能体挑战赛：http://rlchina.org/topic/928

八、RLChina 前沿讲习班：http://rlchina.org/topic/215

九、RLChina 论文研讨会：http://rlchina.org/topic/219

Frei0d
1 帖子 • 9 评论

1201
Carlos
2 帖子 • 4 评论

957
R
Rlxia
0 帖子 • 0 评论

568
RLChina
125 帖子 • 77 评论

456
POLIXIR
44 帖子 • 5 评论

351
Rewrite
0 帖子 • 4 评论

215
pan95732
21 帖子 • 181 评论

203
vinbo
9 帖子 • 84 评论

168
支太行
17 帖子 • 34 评论

133
张海峰
4 帖子 • 43 评论

132