- 发布于2022-05-25 08:29:12
深度学习与深度强化学习的神经网络的差别?
一直有一个比较好奇的点就是,深度学习和深度强化学习在 test 阶段都是使用深度神经网络进行计算,为什么深度强化学习的神经网络就可以用来做决策呢? 是因为二者的训练方式不同吗?因为 loss 的计算方式不同,所以梯度更新的方式也随之不同,导致的二者用途的不...赞评论 2浏览 210 - 赞评论 5浏览 127
- 发布于2021-11-26 18:55:31
求助:深度强化学习在车间作业调度的应用方面
求助:深度强化学习在车间作业调度的应用方面 《Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement Learning》-NeurIPS2020 原文将 JSSP 问题表示成为...赞评论 2浏览 411 - 发布于2022-05-19 17:56:29
论文考古 | 从一个棋手的角度来看AlphaGo系列
组会上偶然间提起 AlphaGo,勾起了一些尘封已久的记忆。说起来,我之所以选择 AI 这个专业、确定 RL 这个方向,与 AlphaGo 不无关系。 曾经的我满怀对围棋的梦想,也算是有点天赋吧,不足十岁就已经获得过多次省级冠亚军,正打算中考之后去聂道场进...赞 3评论 1浏览 171 - 发布于2021-10-08 14:26:42赞 3评论 8浏览 390
- 发布于2021-11-26 21:49:46
想复现别人的实验,但是看不懂代码怎么办。
最近看了一些文献,挺感兴趣,但是复现不出来,人家提供了代码自己也没看明白,我想问问面对这种怎么办。自己的想法也需要实验,但是看代码有点痛苦,有没有好一点的方法。比如第一步看看逻辑框架啥的。哎。。。。菜鸟的泪是真的苦。赞评论 2浏览 489 - 发布于2021-12-21 20:25:45赞 1评论 1浏览 554
- 发布于2021-11-30 21:05:20
MARL真的需要centralised training吗?
Centralised training decentralised execution 似乎已经成为开发现今多智能体强化学习 MARL 算法的唯一范式,基于 CTDE 的各种变形也是花样繁多(例如 MADDPG, COMA, VDN, QMIX)。但事实...赞 12评论 3浏览 1173 - 发布于2021-12-13 21:48:17赞评论浏览 282
- 发布于2021-12-11 10:52:14赞 1评论浏览 350
- 发布于2021-12-05 16:21:05
请问离线深度强化学习训练出的策略如何与其他强化学习算法进行对比?有哪些评价指标
我们都知道机器学习与深度学习有一些正确率、ROC 曲线、召回率等评价指标,如果利用的是离线数据训练的强化学习模型,如何与其他算法进行对比呢?评价指标是什么?怎么算呢?赞评论 1浏览 347