RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • 自动化所王梓薏
    自动化所王梓薏 自动化所王梓薏 这家伙很懒,什么都没留下
    发布于12天前

    良师益友|天津大学郝建业:人工智能的前途在于应用

    导读 “良师益友”是 RLChina 的一个栏目,以采访的形式记录学者对科研工作的思考。 本篇文章主要介绍对天津大学副教授、华为诺亚方舟决策推理实验室主任郝建业博士的采访,主要涉及个人经历、学术观点、产业观点、其他观点 4 个部分,共计 10 个问题。快来...
    赞 2
    评论
    浏览 151
    经验分享
  • 小
    小 小丶马 这家伙很懒,什么都没留下
    发布于27天前

    请教一下关于动作边界值的问题。

    假如我的动作空间是开区间(-1,1),并且采用的是 PPO 算法,那我要怎么避免智能体取到边界值-1 和 1 呢?常用的方法有哪些诶?
    赞
    评论
    浏览 76
    经验分享
  • 大鱼
    大鱼 大鱼 这家伙很懒,什么都没留下
    发布于2022-04-06 08:39:45

    分层强化学习

    请教:分层强化学习有什么推荐的综述文章吗?
    赞
    评论 4
    浏览 947
    经验分享
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于2022-06-08 12:13:41

    玩转Python|类与方法的隐藏秘密(3)

    上期为大家准备的 Python 攻略,从原理上讲了 Python 类的本质,接下来的两篇 Python 专栏里,继续来讲讲关于类及其方法的一些冷知识和烫知识。 我们也会和前面两篇专栏一样,用各种神奇的例子,从原理和机制的角度为你还原一个不一样的 Pytho...
    赞 1
    评论
    浏览 363
    经验分享
  • AINova
    AINova AINova 研究强化学习,时空众包
    发布于2021-10-11 09:59:15
    小白可以阅读《深入浅出强化学习》两本书来入门
    赞 1
    评论 6
    浏览 948
    经验分享
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于2022-05-31 15:08:52

    混合动作空间|揭秘创造人工智能的黑魔法(3)

    在前两篇博客中,我们介绍了深度强化学习的动作空间定义和常见的预处理方法。 混合动作空间 | 揭秘创造人工智能的黑魔法(1) 混合动作空间 | 揭秘创造人工智能的黑魔法(2) 过去的强化学习研究大部分都关注离散动作和连续动作问题,但由于混合动作空间在诸多真实...
    赞 1
    评论
    浏览 739
    经验分享
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于2022-05-27 12:51:30

    混合动作空间|揭秘创造人工智能的黑魔法(2)

    引言: 我们之前的一篇文章(混合动作空间 | 揭秘创造人工智能的黑魔法(1))中,详细地介绍了强化学习目前常见的动作空间类型,如离散动作、连续动作、混合动作等。本文则将以游戏环境为例,介绍如何对强化学习的动作空间进行预处理(action space sha...
    赞 1
    评论
    浏览 415
    经验分享
  • S
    S songweifeng 这家伙很懒,什么都没留下
    发布于2022-03-25 11:17:17

    请教关于多智能体DRL和注意力机制的问题

    1、在多智能体的情况下,能否使用局部观测达到甚至超过使用全局信息的训练效果? 2、注意力机制加入之后训练效果不增反减的原因?或者是其使用条件
    赞
    评论
    浏览 405
    经验分享
  • 7
    7 7bring 这家伙很懒,什么都没留下
    发布于2022-03-20 19:44:25
    请教!有关DQN的损失函数收敛,但是模型表现很差的问题。 详细的问题描述如下链接。 https://zhuanlan.zhihu.com/p/484273534
    赞
    评论
    浏览 358
    经验分享
  • 清木
    清木 清木 safe learning
    发布于2022-03-03 00:56:53

    Safe Reinforcement Learning Baseline

    我们整理和调查了 safe reinforcement learning 相关的算法 baseline 文献以及 code,有感兴趣的欢迎加入我们,也欢迎任何建议意见。文献和代码链接: https://github.com/chauncygu/Safe-R...
    赞 7
    评论 2
    浏览 611
    经验分享
  • AINova
    AINova AINova 研究强化学习,时空众包
    发布于2021-11-28 10:47:55

    请问大家有没有入门多智能体强化学习的代码推荐 可供小白入门学习

    有代码推荐的大佬回我回我
    赞 3
    评论 3
    浏览 1187
    经验分享
  • daydayup
    daydayup daydayup 一份伏特加,加一点青柠,姜汁,啤酒,最重要的是,还有一点爱
    发布于2021-10-01 09:43:53

    Unity ML-agents | | 强化学习 | | 交流 | | 求助

    最近在使用 ML-agents,在阅读他的详细设置和算法上遇到了难题,请问有没有小伙伴或者大佬可以一块交流学习啊,或者能给我指一个改写 PPO 的途径,蟹蟹! 问题更新:(主要指 ML-agents 当中 PPO 算法具体输入、具体数据处理、输出都分别在整...
    赞 7
    评论 13
    浏览 1147
    经验分享
  • AINova
    AINova AINova 研究强化学习,时空众包
    发布于2021-10-26 09:55:25

    请问,使用了强化学习技术解决了自己研究方向的问题,效果不错,像这种情况可不可以发表论文

    各位老师同学,我使用 Q-learning 算法解决了自己研究方向的某一个问题,效果还挺好的,但是没怎么对 Q-learning 算法进行改进,是基于 QL 算法的,找到了自己研究问题中对于状态集,动作集,Reward 的映射关系,想请问各位专家老师同学,...
    赞 3
    评论 10
    浏览 998
    经验分享
  • AINova
    AINova AINova 研究强化学习,时空众包
    发布于2021-11-05 11:09:12

    使用最基础的Policy Gradient训练不收敛,有没有懂的大佬朋友

    赞
    评论 1
    浏览 560
    经验分享
  • Atongmu
    Atongmu Atongmu Let's play games, shall we?
    发布于2021-10-15 09:32:11

    强化经典面试题(一)

    已经入坑一段时间,想整理一个强化学习面试题专栏。这里面有参考网上的问题和答案,也有自己平时遇到的。欢迎来一起讨论 🥰 Let's start, shall we? 1. 什么是强化学习? 强化学习由环境、动作和奖励组成,强化学习的目标是使得作出的一系列决...
    赞 2
    评论 2
    浏览 982
    经验分享
  • H
    H hanhan 这家伙很懒,什么都没留下
    发布于2021-10-14 09:15:21

    【面经】启元世界二面

    1.做一下自我介绍 2.说一下实验室项目介绍 3.MA2C 是什么? 4.在你的项目中,是怎么处理多智能体学习过程中的非平稳问题的? 5.AC 算法和 PG 算法相比,有什么优势? 6.在神经网络中,为什么要引入残差结构? 7.为什么 GRU 和 LSTM...
    赞 1
    评论 1
    浏览 867
    经验分享
  • H
    H hanhan 这家伙很懒,什么都没留下
    发布于2021-10-13 11:21:52

    【Github】打工人也需要生活

    Worker Lives Matter! 是由中国民间程序员发起的一个项目,针对目前包括互联网企业在内的各个企业加班盛行且无监管的现状,上线了一个在线作息编辑表格。上线仅两天就收获了上千条各个企业精确到部门的作息情况和工作氛围等信息,几十万的浏览次数,上百...
    赞 2
    评论 1
    浏览 1019
    经验分享
  • H
    H hanhan 这家伙很懒,什么都没留下
    发布于2021-10-11 22:11:27

    分布式强化学习框架

    MIT 的 Ray 链接 上交大的 链接 DILab 链接 字节的 RayLink 链接
    赞 1
    评论 1
    浏览 553
    经验分享
  • AINova
    AINova AINova 研究强化学习,时空众包
    发布于2021-10-11 09:56:14
    《深入浅出强化学习:编程实战》一书值得推荐
    赞
    评论 1
    浏览 607
    经验分享
  • Dixit
    Dixit Dixit 这家伙很懒,什么都没留下
    发布于2021-10-07 17:06:54

    方差缩减术

    目前我所知的方差缩减技术有 3 类: 1、Baseline 方法; 2、TD 方法; 3、Reparameterization 方法; 欢迎补充其他的方差缩减方法~ 另外在 actor loss 中,是否可以导出像机器学习中的那种 bias-varianc...
    赞 2
    评论 1
    浏览 591
    经验分享
公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 强化学习暑期课(每年):http://rlchina.org/topic/491

三、RLChina 智能体挑战赛(每季):http://rlchina.org/topic/216

四、RLChina 前沿讲习班(每月):http://rlchina.org/topic/215

五、RLChina 论文研讨会(每周):http://rlchina.org/topic/219

合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

签到
0
立即签到
积分排行
  • Carlos
    Carlos

    2 帖子 • 3 评论

    494
  • RLChina
    RLChina

    116 帖子 • 77 评论

    412
  • POLIXIR
    POLIXIR

    33 帖子 • 5 评论

    334
  • Rewrite
    Rewrite

    0 帖子 • 4 评论

    214
  • Frei0d
    Frei0d

    1 帖子 • 7 评论

    210
  • vinbo
    vinbo

    9 帖子 • 84 评论

    164
  • 支太行
    支太行

    17 帖子 • 34 评论

    133
  • 张海峰
    张海峰

    4 帖子 • 43 评论

    132
  • AINova
    AINova

    20 帖子 • 43 评论

    98
  • daydayup
    daydayup

    4 帖子 • 34 评论

    84
关于 标签 友链
© 2021 Powered by 中国科学院自动化研究所群体决策智能实验室