RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • 上海数字大脑研究院
    上海数字大脑研究院 上海数字大脑研究院 上海数字大脑研究院(简称“数研院”)汇聚决策智能领域全球领先的科研力量,面向中国及全球产业智能化升级需求,致力于为全球企业提供决策智能解决方案,驱动各产业全面智能化升级。立志做中国产业进步的价值创新者,让决策更科学、更高效、更智能。
    发布于1天前

    AIGA时代,决策智能大模型将引领产业变革

    ChatGPT-3 的热度还未过,OpenAI 于近日发布了多模态预训练大模型 GPT-4,行业惊呼又一场颠覆性的变革呼啸而来。对于 AIGC(内容生成)方向来说,变革随着 GPT-3 和 GPT-4 的横空出世已然落定;然而对于 AIGA(行动生成)方向...
    赞
    评论
    浏览 32
    水区
  • RLChina
    RLChina RLChina RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
    发布于12天前

    专题报告二:从生成式大模型到决策式大模型

    时间 3 月 14 日 周二 下午 7:00-8:00 直播观看 http://live.bilibili.com/22386217 提问互动 本帖下方评论区 讲师介绍 张伟楠 上海交通大学 副教授,博士生导师 个人简介: 张伟楠博士现任上海交通大学计算...
    赞
    评论 5
    浏览 297
    水区
  • Y
    Y yufei kuang 这家伙很懒,什么都没留下
    发布于25天前

    RLChina 论文研讨会第41期(2023.2.28直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 数学规划求解器广泛应用于工业排产、物流调度、金融投资等重大领域,被誉为运筹优化领域的“光刻机”。近年来,机器学习技术在求...
    赞
    评论
    浏览 471
    水区
  • 上海数字大脑研究院
    上海数字大脑研究院 上海数字大脑研究院 上海数字大脑研究院(简称“数研院”)汇聚决策智能领域全球领先的科研力量,面向中国及全球产业智能化升级需求,致力于为全球企业提供决策智能解决方案,驱动各产业全面智能化升级。立志做中国产业进步的价值创新者,让决策更科学、更高效、更智能。
    发布于26天前

    ChatGPT引爆大模型,数研院决策智能成果“小”起底

    ChatGPT 爆火再度引发了各界对于大模型的关注,内容生成(AIGC)已经展示出大模型对于实际应用的高效提升,也让业界对于其赋能实际应用有了更多期待。在内容生成之上,社会更需要借助大模型去做更深层次的决策辅助,行动生成(AIGA)是进阶的深水区。 AIG...
    赞
    评论
    浏览 138
    水区
  • 警
    警 警官001 这家伙很懒,什么都没留下
    发布于29天前

    询问多智能体方向学校之间的实力

    请问在多智能体控制领域,北京理工大学水平如何呢?和南京大学等最顶尖的大学实力相比呢?
    赞 1
    评论
    浏览 146
    水区
  • Z
    Z Zoey 这家伙很懒,什么都没留下
    发布于2023-02-17 15:35:03

    强化学习算法训练后如何用tensorboard统计环境返回的info内的数据?

    用 rl 算法训练后,需要用 tensorboard 统计 env 返回的 info 内的一些数据,但无法读取字典。 在算法。py 文件的 writer = SummaryWriter() 语句后使用:writer.add_scalar("xxx", en...
    赞
    评论
    浏览 66
    水区
  • Z
    Z zjduan 这家伙很懒,什么都没留下
    发布于2023-02-08 15:41:19

    RLChina 论文研讨会第39期(2023.2.14直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 39 期论文研讨会将由北京大学博士生段志健主持,北京大学博士生吴铭东、北京大学本科生李宁远、北京大学博士生潘学海为大...
    赞 1
    评论
    浏览 267
    水区
  • 杜雅丽 (2023招生ing 欢迎联系)
    杜雅丽 (2023招生ing 欢迎联系) 杜雅丽 (2023招生ing 欢迎联系) Assistant Professor, 机器学习/强化学习/多智能体学习, KCL 申请PhD/visiting/ 欢迎联系 Email: yali.du (AT) kcl.ac.uk
    发布于2023-01-24 18:32:18

    博士后 招聘/联培

    King’s 这边有个一年的 PostDoc fellowship,支持国内在职的博后或同等职位的 researcher,来 king’s 做一年的博后再回去。 感兴趣的同学欢迎联系,欢迎转发!email: yali.du@kcl.ac.uk
    赞
    评论
    浏览 216
    水区
  • M
    M Minyu 这家伙很懒,什么都没留下
    发布于2023-01-17 16:27:46

    强化学习目标函数的问题

    强化学习的目标函数长下面这个样子 这里的 π∈P(S)中的 P(S)应该指的是策略的区间集合,我的问题是如果 S=[a,b]或者其他一个有限区间的话,那么 π 这个概率密度函数是一个定义在[a,b]上的连续的概率密度函数,还是一个在 a 和 b 点分别取...
    赞 1
    评论
    浏览 150
    水区
  • 上海数字大脑研究院
    上海数字大脑研究院 上海数字大脑研究院 上海数字大脑研究院(简称“数研院”)汇聚决策智能领域全球领先的科研力量,面向中国及全球产业智能化升级需求,致力于为全球企业提供决策智能解决方案,驱动各产业全面智能化升级。立志做中国产业进步的价值创新者,让决策更科学、更高效、更智能。
    发布于2023-01-16 14:44:24

    数研院获评2022世界创新奖,跻身“中国数据智能企业Top30”

    上周,2022 创新者年会(WIM2022)启幕,本届 WIM 大会由亿欧主办,中关村国家自主创新示范区展示中心及中关村会展与服务产业联盟联合举办。作为中国科技领域最有影响力的大会之一,WIM2022 围绕“新”流不息,设立“世界创新奖”(WIA), 以表...
    赞
    评论
    浏览 117
    水区
  • S
    S sun 这家伙很懒,什么都没留下
    发布于2023-01-13 21:26:40

    请教贴。请问在多智能体系统中,智能体之间的状态值或者动作值的传递是通过什么方式?

    我个人理解比较简单,智能体之间的状态值或者动作值的传递,主要就是根据环境 t 时刻的变化,智能体在 t+1 时刻感知环境到新的环境信息,此时智能体之间的状态值或者动作值信息就完成了传递。我不知道我得理解是否合理,请教各位予以指点。
    赞
    评论
    浏览 136
    水区
  • 上海数字大脑研究院
    上海数字大脑研究院 上海数字大脑研究院 上海数字大脑研究院(简称“数研院”)汇聚决策智能领域全球领先的科研力量,面向中国及全球产业智能化升级需求,致力于为全球企业提供决策智能解决方案,驱动各产业全面智能化升级。立志做中国产业进步的价值创新者,让决策更科学、更高效、更智能。
    发布于2023-01-10 11:04:08

    数研院院长汪军教授受邀出席机器之心「AI科技年会」并进行主题演讲

    2023 年 1 月 11 日-12 日,由机器之心倾力打造年度品牌活动「AI 科技年会」将与大家线上相聚。 基于对 2022 年人工智能研究、技术和应用的观察及研究,机器之心邀请业内知名专家、高管及有代表性企业参加,共同总结过去一年人工智能的重要经历与成...
    赞
    评论
    浏览 153
    水区
  • QY
    QY QY 这家伙很懒,什么都没留下
    发布于2022-12-30 15:42:55

    实习 兼职 线上答疑

    只要你擅长任意一种编程语言,(C/C++/C#/Java/Python/Haskell/Rust/Ruby/LISP/   PHP/Js/IOS/Android/MATLAB/数据结构/算法分析/计算机组成原理/操作系统/网络原理/   编译原理/汇编/数...
    赞
    评论
    浏览 229
    水区
  • QY
    QY QY 这家伙很懒,什么都没留下
    发布于2022-12-26 17:00:27

    兼职 实习 计算机相关

    只要你擅长任意一种编程语言,(C/C++/C#/Java/Python/Haskell/Rust/Ruby/LISP/   PHP/Js/IOS/Android/MATLAB/数据结构/算法分析/计算机组成原理/操作系统/网络原理/   编译原理/汇编/数...
    赞
    评论
    浏览 144
    水区
  • 上海数字大脑研究院
    上海数字大脑研究院 上海数字大脑研究院 上海数字大脑研究院(简称“数研院”)汇聚决策智能领域全球领先的科研力量,面向中国及全球产业智能化升级需求,致力于为全球企业提供决策智能解决方案,驱动各产业全面智能化升级。立志做中国产业进步的价值创新者,让决策更科学、更高效、更智能。
    发布于2022-12-08 14:10:17

    上海数字大脑研究院发布国内首个多模态决策大模型DB1,决策推理优化速度大幅提升

    近日,上海数字大脑研究院(以下简称“数研院”)推出首个数字大脑多模态决策大模型(简称 DB1),填补了国内在此方面的空白,进一步验证了预训练模型在文本、图-文、强化学习决策、运筹优化决策方面应用的潜力。目前,DB1 代码我们已开源在 GitHub,项目链接...
    赞
    评论
    浏览 225
    水区
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于2022-12-01 11:40:28

    给你一个 PPO × Family 课程,撑起整个决策 AI 宇宙

    序幕 童年经典游戏 80、90 年代出生的人,红白机总是童年时光重要的记忆片段之一。几叠游戏盒,两个手柄,就可以开启一整天的欢乐时光,乐此不疲地探索各种红白机游戏中的玩法、机制、彩蛋。虽然只是 2 维平面上的像素头小人,虽然只是“上上下下左右左右 BAB...
    赞
    评论
    浏览 275
    水区
  • 上海数字大脑研究院
    上海数字大脑研究院 上海数字大脑研究院 上海数字大脑研究院(简称“数研院”)汇聚决策智能领域全球领先的科研力量,面向中国及全球产业智能化升级需求,致力于为全球企业提供决策智能解决方案,驱动各产业全面智能化升级。立志做中国产业进步的价值创新者,让决策更科学、更高效、更智能。
    发布于2022-11-24 18:26:15

    招贤纳士|运筹优化建模语言研发实习生

    关于我们 数研院面向中国和全球数字化业务需求,聚焦决策智能大模型、多智能体强化学习、机器学习驱动的运筹优化算法、人在环路算法、数字孪⽣等新⼀代人工智能关键技术研究与应用,以科技创新与资本联动方式加速科技成果快速商业化,以华裔科学家为先导推进国际高端科研人才...
    赞
    评论
    浏览 267
    水区
  • 上海数字大脑研究院
    上海数字大脑研究院 上海数字大脑研究院 上海数字大脑研究院(简称“数研院”)汇聚决策智能领域全球领先的科研力量,面向中国及全球产业智能化升级需求,致力于为全球企业提供决策智能解决方案,驱动各产业全面智能化升级。立志做中国产业进步的价值创新者,让决策更科学、更高效、更智能。
    发布于2022-11-24 18:17:58

    招贤纳士|上海数字大脑研究院游戏AI实习生招聘

    关于我们 数研院面向中国和全球数字化业务需求,聚焦决策智能大模型、多智能体强化学习、机器学习驱动的运筹优化算法、人在环路算法、数字孪⽣等新⼀代人工智能关键技术研究与应用,以科技创新与资本联动方式加速科技成果快速商业化,以华裔科学家为先导推进国际高端科研人才...
    赞
    评论
    浏览 277
    水区
  • 上海数字大脑研究院
    上海数字大脑研究院 上海数字大脑研究院 上海数字大脑研究院(简称“数研院”)汇聚决策智能领域全球领先的科研力量,面向中国及全球产业智能化升级需求,致力于为全球企业提供决策智能解决方案,驱动各产业全面智能化升级。立志做中国产业进步的价值创新者,让决策更科学、更高效、更智能。
    发布于2022-11-24 17:05:11
    【直播预告】回顾人工智能及机器学习研究的最新进展,探讨意识与智能的内在联系,分析研究尝试与行业应用,上海数字大脑研究院第一期技术沙龙来啦~ 院长汪军教授将带来「机器意识:终极人工智能的最后一公里」,25号晚7点整,敬请关注👇🏻
    赞
    评论
    浏览 214
    水区
  • sheldon123z
    sheldon123z sheldon123z 这家伙很懒,什么都没留下
    发布于2022-11-22 13:46:47

    On-Policy Approximation -1 强化学习Sutton第9章部分总结

    On-Policy Approximation 均值方差公式: \overline{\mathrm{VE}}(\mathbf{w}) \doteq \sum_{s \in \mathcal{S}} \mu(s)\left[v_\pi(s)-\hat{v}(...
    赞 1
    评论
    浏览 186
    水区
公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 强化学习暑期课(每年):http://rlchina.org/topic/491

三、RLChina 智能体挑战赛(每季):http://rlchina.org/topic/216

四、RLChina 前沿讲习班(每月):http://rlchina.org/topic/215

五、RLChina 论文研讨会(每周):http://rlchina.org/topic/219

合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

签到
0
立即签到
积分排行
  • Carlos
    Carlos

    2 帖子 • 3 评论

    494
  • RLChina
    RLChina

    116 帖子 • 77 评论

    412
  • POLIXIR
    POLIXIR

    33 帖子 • 5 评论

    334
  • Rewrite
    Rewrite

    0 帖子 • 4 评论

    214
  • Frei0d
    Frei0d

    1 帖子 • 7 评论

    210
  • vinbo
    vinbo

    9 帖子 • 84 评论

    164
  • 支太行
    支太行

    17 帖子 • 34 评论

    133
  • 张海峰
    张海峰

    4 帖子 • 43 评论

    132
  • AINova
    AINova

    20 帖子 • 43 评论

    98
  • daydayup
    daydayup

    4 帖子 • 34 评论

    84
关于 标签 友链
© 2021 Powered by 中国科学院自动化研究所群体决策智能实验室