RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-07-14 10:37:45

    「仙启教学视频」基于VS Code的POLIXIR REVIVE SDK 开发,数据驱动强化学习(离线强化学习)开发工具包辅助插件

    基于 VS Code 的 POLIXIR REVIVE SDK 开发,数据驱动强化学习(离线强化学习)开发工具包辅助插件教学视频已发布,欢迎小伙伴们查阅观看! 视频观看,详见南栖仙策 B 站:基于 VS Code 的 POLIXIR REVIVE SDK ...
    赞
    评论 5
    浏览 441
    实用工具
  • Haitham Bou Ammar
    Haitham Bou Ammar Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-07 02:52:21
    A 4 step proof that value baselines don't affect policy grads in #RL😀Just the log-trick & Fubini gets u there!
    赞 5
    评论 3
    浏览 677
    课程学习
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2021-12-25 09:43:32

    【比赛专用】 AI决策•强化学习落地挑战赛——学习制定平等的促销策略,基线(baseline)方案与代码

    基线(baseline)方案与代码 本次挑战赛使用的技术方法不限。本文介绍南栖仙策为挑战赛提供的基线方案。基线方案基于 Polixir Revive SDK 【下载地址】,基线代码与样例提交代码参见比赛所提供的 starting_kit.zip。 在此方案...
    赞 3
    评论 4
    浏览 1005
    学科竞赛
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2021-12-24 13:47:32

    AI决策•强化学习落地挑战赛——学习制定平等的促销策略,报名火热进行中

    AI 决策•强化学习挑战赛【学习制定平等的促销策略】,报名火热进行中。比赛诚邀“挑战者”以 AI 营销策略者的身份共同助力智能营销,解决保障消费者权益前提下的营销挑战,考察参赛者 AI 决策的落地能力。欢迎前来挑战! 【比赛背景】 强化学习在围棋、游戏等...
    赞 1
    评论 1
    浏览 959
    学科竞赛
  • Haitham Bou Ammar
    Haitham Bou Ammar Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-02 05:44:26
    ELBO in 5 simple steps starting direclty from Bayes Rule!
    赞 3
    评论
    浏览 554
    课程学习
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2023-02-07 11:53:45

    极限汽车运动控制 全矢量协同控制技术

    极限汽车运动控制 汽车作为拥有数千部件的复杂系统,长久以来,通过不同模块之间的互相制衡与协同,在固化的功能中找到折衷方案,保证变化路况下人们的驾驶安全。 未来的智能化车辆控制,不但要求在极端状况下保持车身的稳定性,如高速爆胎和动态附着路面下的驾乘安全,同时...
    赞
    评论
    浏览 169
    产业应用
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-07-04 15:29:10

    【REVIVE SDK版本更新】REVIVE SDK 0.7.2版正式发布

    REVIVE SDK 0.7.2 版正式发布,欢迎小伙伴们下载使用。 1、REVIVE SDK 0.7.2 下载地址:REVIVE SDK 首页 2、REVIVE SDK 0.7.2 文档地址: REVIVE 帮助中心 3、REVIVE SDK 0.7....
    赞
    评论
    浏览 264
    实用工具
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-07-05 14:01:28

    「仙启」REVIVE SDK下载与安装(基于Docker),数据驱动强化学习(离线强化学习)开发工具包

    数据驱动强化学习(离线强化学习)开发工具包 REVIVE SDK 下载与安装(基于 Docker)的教学视频已发布,欢迎小伙伴们查阅观看! 视频观看,详见南栖仙策 B 站:REVIVE SDK 下载与安装(基于 Docker) 【POLIXIR REVIV...
    赞
    评论
    浏览 349
    实用工具
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-05-20 10:49:32

    「仙启」REVIVE SDK快速入门系列教程,玩转数据驱动强化学习(离线强化学习)开发工具包

    「仙启」REVIVE SDK 快速入门系列教程,结合冰箱温控案例展示如何使用 REVIVE 工具去完成自己的决策任务。 1、强化学习基础概念 2、使用尽可能少的数学公式和代码展示如何使用 REVIVE 工具去完成自己的决策任务 视频观看,详见南栖仙策 B ...
    赞 1
    评论
    浏览 524
    实用工具
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于2022-07-06 11:13:42
    第3期Insight Time前沿技术交流分享会马上又要和大家见面了!本期邀请的嘉宾是来自悉尼大学的在读博士生Yae同学,其研究方向为计算机视觉和强化学习,目前专注于离线强化学习及多智能体强化学习。 本次分享将会带来: - 了解决策AI大模型训练的基本原理 - 掌握大模型训练的监督、自监督学习技术应用于序列决策任务的创新思路 - 了解大型通用模型训练的更多应用性 请锁定7月6日(周三)晚8点的直播哦~
    赞
    评论
    浏览 230
    学术活动
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-07-01 16:34:12

    【REVIVE IDE发布】POLIXIR REVIVE For VS Code 1.0正式发布

    POLIXIR REVIVE For VS Code 1.0 正式发布,欢迎小伙伴们下载试用。 1、POLIXIR REVIVE For VS Code 1.0 正式发布: https://marketplace.visualstudio.com/item...
    赞
    评论
    浏览 290
    实用工具
  • 孟令辉
    孟令辉 孟令辉 中科院自动化所2019级直博生 主要关注多智能体强化学习相关方向,包括强化学习预训练、表征强化学习
    发布于2022-04-09 17:29:50

    RLChina 论文研讨会第16期(2022.04.12直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 16 期论文讨论会将由中科院自动化所博士生孟令辉同学主持,罗格斯大学博士生邱文杰、清华大学博士生杨以钦和中科院自动化...
    赞 1
    评论
    浏览 876
    学术活动
  • Haitham Bou Ammar
    Haitham Bou Ammar Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-02 22:47:19

    Iterated Law of Expectation Consice Proof (6 simple steps)

    When deriving the Belman equations, we needed the iterated law of expectations. Rather than believing me, have a look at this 6-...
    赞 3
    评论
    浏览 476
    课程学习
  • 因果与Markov
    因果与Markov 因果与Markov 这家伙很懒,什么都没留下
    发布于2021-12-13 21:48:17
    就目前我所看到的model-based方法中,对于transition model的建模(or估计)都是直接把数据(如果是图像就可能用个VAE提取latent vector)输入到神经网络(不管是MLP还是RNN也好)中,直接对这个转移分布P进行建模,但是这种方法必然是存在一些“不该有”的bias。这个“不该有”的bias可以通过单纯利用状态的Causal parent去对transition model进行建模从而消除,但是问题在于,如何去寻找这个Causal Parent呢?能不能寻找与建模同时进行呢?
    赞
    评论
    浏览 482
    论文研讨
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-02-28 18:15:37

    【比赛结果公布】AI决策•强化学习落地挑战赛——学习制定平等的促销策略

    AI 决策•强化学习挑战赛【学习制定平等的促销策略】,比赛结果新鲜出炉,欢迎小伙伴们一起围观 TOP5 队伍吧! 【竞赛背景】 强化学习在围棋、游戏等环境展示出超越人类的决策能力。为促进强化学习在真实场景的应用,江苏省人工智能学会联合南栖仙策发起此次竞赛。...
    赞 1
    评论
    浏览 822
    学科竞赛
  • Haitham Bou Ammar
    Haitham Bou Ammar Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-02-28 22:26:57

    (RL 正在改变世界!贝尔曼方程是#RL 的核心。这是一个 3 (3.5:P) 步骤的简明证明)

    赞 6
    评论 2
    浏览 780
    课程学习
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-02-11 15:19:16

    【复赛正式开启•报名参赛持续进行中】AI决策•强化学习落地挑战赛——学习制定平等的促销策略

    AI 决策•强化学习挑战赛【学习制定平等的促销策略】,复赛正式开启中,同时继续开启注册参加比赛窗口,欢迎更多爱好者前来挑战! 【比赛概览】 1、为了鼓励更多参赛队伍参加竞赛,所有已注册队伍和个人都将自动进入下一轮竞赛 进入复赛队伍通过比赛平台下载新提供的更...
    赞
    评论
    浏览 486
    学科竞赛
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-01-06 13:03:05

    【更新•基线(baseline)方案详解与代码示例】 AI决策•强化学习落地挑战赛——学习制定平等的促销策略

    本文更新了南栖仙策为挑战赛提供的基线方案,对基线方案做了更详细说明,以及说明了如何评估和改善基线训练出的环境和模型策略。欢迎大家下载查阅。 1、基线方案基于 Polixir Revive SDK 【下载地址】 2、基线代码,样例提交代码,以及用于指导参赛者...
    赞
    评论
    浏览 615
    学科竞赛
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-01-27 18:43:13

    【VSCode Polixir Revive插件发布 • 基于Revive插件的Baseline设计】AI决策•强化学习落地挑战赛——学习制定平等的促销策略

    本文提供了南栖仙策发布的 VSCode Polixir Revive 插件,以及基于此插件的基线(Baseline)方案设计指导,欢迎查阅。 1、VSCode Polixir Revive 插件正式发布 https://marketplace.visual...
    赞
    评论
    浏览 589
    学科竞赛
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-01-27 14:59:53

    【更新•比赛基线(baseline)方案】 AI决策•强化学习落地挑战赛——学习制定平等的促销策略

    本文重新更新了南栖仙策为挑战赛提供的基线方案,对基线方案做了更详细说明,欢迎大家查阅详细方案。 更新点: 1、 Revive SDK 更新至 0.6.0 版本; 2、 整理 baseline 代码,以提高可读性,并方便状态等的自定义修改(请关注新增的 u...
    赞
    评论
    浏览 633
    学科竞赛
签到
0
立即签到
合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 强化学习暑期课(每年):http://rlchina.org/topic/491

三、RLChina 智能体挑战赛(每季):http://rlchina.org/topic/216

四、RLChina 前沿讲习班(每月):http://rlchina.org/topic/215

五、RLChina 论文研讨会(每周):http://rlchina.org/topic/219

积分排行
  • Carlos
    Carlos

    2 帖子 • 3 评论

    494
  • RLChina
    RLChina

    116 帖子 • 77 评论

    412
  • POLIXIR
    POLIXIR

    33 帖子 • 5 评论

    334
  • Rewrite
    Rewrite

    0 帖子 • 4 评论

    214
  • Frei0d
    Frei0d

    1 帖子 • 7 评论

    210
  • vinbo
    vinbo

    9 帖子 • 84 评论

    164
  • 支太行
    支太行

    17 帖子 • 34 评论

    133
  • 张海峰
    张海峰

    4 帖子 • 43 评论

    132
  • AINova
    AINova

    20 帖子 • 43 评论

    98
  • daydayup
    daydayup

    4 帖子 • 34 评论

    84
关于 标签 友链
© 2021 Powered by 中国科学院自动化研究所群体决策智能实验室