RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于1天前

    清华团队提出的视频高效处理神器AdaFocus,真有那么神?

    引言: 在当今这样信息大爆炸的时代,人们已越来越多地习惯用视频的形式传达信息,在 YouTube 上每分钟就有超过 300 小时的视频上传。而且在媒介形式中,视频相较于图片有着更大的使用场景和应用范围。自动识别这些海量视频中的人类行为、事件、紧急情况等内容...
    赞
    评论
    浏览 11
    论文研讨
  • 北风与歌
    北风与歌 北风与歌 这家伙很懒,什么都没留下
    发布于2022-05-25 08:29:12

    深度学习与深度强化学习的神经网络的差别?

    一直有一个比较好奇的点就是,深度学习和深度强化学习在 test 阶段都是使用深度神经网络进行计算,为什么深度强化学习的神经网络就可以用来做决策呢? 是因为二者的训练方式不同吗?因为 loss 的计算方式不同,所以梯度更新的方式也随之不同,导致的二者用途的不...
    赞
    评论 2
    浏览 210
    论文研讨
  • 冲
    冲 冲鸭鸭 这家伙很懒,什么都没留下
    发布于19天前

    强化学习中的绘制带阴影的曲线图

    想请问下论文里的这种图怎么画出来的呢?可以用 matplotlib 吗 此外,这种图是要运行同一个实验得到多个结果才能画出来吗
    赞
    评论 5
    浏览 127
    论文研讨
  • 张晨珩
    张晨珩 张晨珩 南开大学19级AI本科生
    发布于20天前

    【RL in Robotics】Sim-to-Real Transfer

    需要做一些 RL in Robotics 的调研,所以近期打算读一些相关文献,于此稍加记录。 一、问题引入 目前,DRL 已经在机器人领域取得了相当大的成功。机器人不同于其他领域(游戏、围棋等),机器人是要用于真实世界的,因此会有很多额外的限制。 RL 本...
    赞 1
    评论
    浏览 98
    论文研讨
  • ASS
    ASS ASS 这家伙很懒,只留下一个好看的头像
    发布于2021-11-26 18:55:31

    求助:深度强化学习在车间作业调度的应用方面

    求助:深度强化学习在车间作业调度的应用方面 《Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement Learning》-NeurIPS2020 原文将 JSSP 问题表示成为...
    赞
    评论 2
    浏览 411
    论文研讨
  • 张晨珩
    张晨珩 张晨珩 南开大学19级AI本科生
    发布于2022-05-19 17:56:29

    论文考古 | 从一个棋手的角度来看AlphaGo系列

    组会上偶然间提起 AlphaGo,勾起了一些尘封已久的记忆。说起来,我之所以选择 AI 这个专业、确定 RL 这个方向,与 AlphaGo 不无关系。 曾经的我满怀对围棋的梦想,也算是有点天赋吧,不足十岁就已经获得过多次省级冠亚军,正打算中考之后去聂道场进...
    赞 3
    评论 1
    浏览 171
    论文研讨
  • 张晨珩
    张晨珩 张晨珩 南开大学19级AI本科生
    发布于2022-05-02 00:08:47

    多样性PSRO:Towards Unifying Behavioral and Response Diversity for Open-ended Learning in Zero-sum Games

    记得之前读过 DeepMind 团队的大作 Real World Games Look Like Spinning Tops,大佬们指出 Real World Games 的策略空间往往像一个陀螺,我们想找到一个好的策略,必须要翻过中间的红色区域。然而这红...
    赞 1
    评论
    浏览 167
    论文研讨
  • 张晨珩
    张晨珩 张晨珩 南开大学19级AI本科生
    发布于2022-05-01 23:57:52

    PSRO基本框架:A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning

    这篇文章是 PSRO 框架的开山之作。由于笔者之前一直在做单 agent 强化学习,最近才开始接触 MARL,读了几遍都觉得云里雾里,于是一怒之下啃了一遍博弈论教程,总算是自我感觉理解了大部分内容。将自己的浅显理解整理于此,若有疏漏还望海涵。 原文传送门:...
    赞 3
    评论
    浏览 205
    论文研讨
  • 张晨珩
    张晨珩 张晨珩 南开大学19级AI本科生
    发布于2022-05-01 23:33:41

    生活就像陀螺,抽打永不停息:Real World Games Look Like Spinning Tops

    最近一直在 coding,趁着模型训练的空闲,总算有时间细品这篇垂涎已久的 paper。在之前的笔记多样性 PSRO 中已经提到过其中部分内容,这次来仔细领略一下 DeepMind 大佬们高屋建瓴的思维。 原文传送门:Real World Games Lo...
    赞 2
    评论
    浏览 259
    论文研讨
  • dandan
    dandan dandan 研二在读,边缘计算,强化学习 加油冲啊
    发布于2021-10-08 14:26:42
    有没有小伙伴在看边缘计算中卸载决策和资源分配的文章,关于多智体分散决策的 可以一块交流讨论呀
    赞 3
    评论 8
    浏览 390
    论文研讨
  • 支太行
    支太行 支太行 这家伙很懒,什么都没留下,我不懒0.0
    发布于2021-11-26 21:49:46

    想复现别人的实验,但是看不懂代码怎么办。

    最近看了一些文献,挺感兴趣,但是复现不出来,人家提供了代码自己也没看明白,我想问问面对这种怎么办。自己的想法也需要实验,但是看代码有点痛苦,有没有好一点的方法。比如第一步看看逻辑框架啥的。哎。。。。菜鸟的泪是真的苦。
    赞
    评论 2
    浏览 489
    论文研讨
  • 支太行
    支太行 支太行 这家伙很懒,什么都没留下,我不懒0.0
    发布于2022-03-14 23:11:37

    论文“Bi-level Actor-Critic for Multi-agent Coordination”代码复现问题

    最近在复现张老师文章“Bi-level Actor-Critic for Multi-agent Coordination”的过程中遇到了一些问题,在复现老师文中的对比方法 MADDPG、DDPG、I-DQN 等多种方法是不知道如何调整代码,想请问有没有大...
    赞 1
    评论 2
    浏览 369
    论文研讨
  • Jasmine
    Jasmine Jasmine 这家伙很懒,什么都没留下
    发布于2021-12-21 20:25:45

    GAN如何应用于model-based RL?

    感谢社区组织的论文和研究分享,想问下能不能做一期 GAN 和强化学习的结合研究的分享呢? 我觉得 GAN 应该对基于模型的 RL 有很大的作用。
    赞 1
    评论 1
    浏览 554
    论文研讨
  • 布
    布 布里布里灯 这家伙很懒,什么都没留下
    发布于2022-03-05 10:04:50

    大家有什么AC结构最优控制的论文推荐吗

    DDPG,PPO 在控制领域比较好的论文
    赞
    评论
    浏览 198
    论文研讨
  • yaodong
    yaodong yaodong 北京大学助理教授
    发布于2021-11-30 21:05:20

    MARL真的需要centralised training吗?

    Centralised training decentralised execution 似乎已经成为开发现今多智能体强化学习 MARL 算法的唯一范式,基于 CTDE 的各种变形也是花样繁多(例如 MADDPG, COMA, VDN, QMIX)。但事实...
    赞 12
    评论 3
    浏览 1173
    论文研讨
  • 因果与Markov
    因果与Markov 因果与Markov 这家伙很懒,什么都没留下
    发布于2021-12-13 21:48:17
    就目前我所看到的model-based方法中,对于transition model的建模(or估计)都是直接把数据(如果是图像就可能用个VAE提取latent vector)输入到神经网络(不管是MLP还是RNN也好)中,直接对这个转移分布P进行建模,但是这种方法必然是存在一些“不该有”的bias。这个“不该有”的bias可以通过单纯利用状态的Causal parent去对transition model进行建模从而消除,但是问题在于,如何去寻找这个Causal Parent呢?能不能寻找与建模同时进行呢?
    赞
    评论
    浏览 282
    论文研讨
  • 支太行
    支太行 支太行 这家伙很懒,什么都没留下,我不懒0.0
    发布于2021-12-11 10:52:14

    请问这样的实验结果好不好?

    我想要的结果是智能体的平均收益收敛为 2.5,我得到的结果如下:
    赞 1
    评论
    浏览 350
    论文研讨
  • 瑞昌_cary
    瑞昌_cary 瑞昌_cary 致力于深度强化学习,让世界更智能
    发布于2021-12-05 16:21:05

    请问离线深度强化学习训练出的策略如何与其他强化学习算法进行对比?有哪些评价指标

    我们都知道机器学习与深度学习有一些正确率、ROC 曲线、召回率等评价指标,如果利用的是离线数据训练的强化学习模型,如何与其他算法进行对比呢?评价指标是什么?怎么算呢?
    赞
    评论 1
    浏览 347
    论文研讨
  • X
    X xyhk96 这家伙很懒,什么都没留下
    发布于2021-12-03 22:44:57

    张崇洁老师的《DOP: Off-Policy Multi-Agent Decomposed Policy Gradients》论文研讨

    最近在研究多智能体强化学习,有大佬阅读过这篇论文吗,每个智能体 i 的局部 Q 函数的参数 Φi 是如何通过梯度的反向传播来学习到的,可以具体讲解下吗?我看在伪代码的参数初始化中,没有指出每个智能体 i 具有一个单独的神经网络来逼近自身的局部 Q 函数,只...
    赞 5
    评论
    浏览 415
    论文研讨
  • sisi_zhou
    sisi_zhou sisi_zhou 这家伙很懒,什么都没留下
    发布于2021-11-18 23:41:50

    Mean-field Multi-agent Reinforcemen Learning代码复现问题讨论t

    关于 battle game 场景,代码复现时候出现以下问题,希望各位可以多多指教。 1 玻尔兹曼探索策略,训练阶段,temperature 的值从 1 到 0.05 线性衰减,在测试阶段的 temperature 应该设为多少呢?是 1 还是 0.05 ...
    赞 1
    评论 2
    浏览 343
    论文研讨
公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 强化学习暑期课(每年):http://rlchina.org/topic/9

三、RLChina 智能体挑战赛(每季):http://rlchina.org/topic/216

四、RLChina 前沿讲习班(每月):http://rlchina.org/topic/215

五、RLChina 论文研讨会(每周):http://rlchina.org/topic/219

合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

签到
0
立即签到
积分排行
  • RLChina
    RLChina

    66 帖子 • 49 评论

    271
  • Carlos
    Carlos

    2 帖子 • 2 评论

    251
  • POLIXIR
    POLIXIR

    19 帖子 • 2 评论

    159
  • Rewrite
    Rewrite

    0 帖子 • 1 评论

    149
  • 支太行
    支太行

    17 帖子 • 34 评论

    132
  • 张海峰
    张海峰

    4 帖子 • 35 评论

    122
  • AINova
    AINova

    20 帖子 • 39 评论

    89
  • vinbo
    vinbo

    6 帖子 • 34 评论

    85
  • daydayup
    daydayup

    4 帖子 • 33 评论

    82
  • 从头再来
    从头再来

    14 帖子 • 41 评论

    80
关于 标签 友链
© 2021 Powered by 中国科学院自动化研究所群体决策智能实验室