RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • hba
    hba hba RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-07 02:52:21
    A 4 step proof that value baselines don't affect policy grads in #RL😀Just the log-trick & Fubini gets u there!
    赞 4
    评论 3
    浏览 329
    课程学习
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2021-12-25 09:43:32

    【比赛专用】 AI决策•强化学习落地挑战赛——学习制定平等的促销策略,基线(baseline)方案与代码

    基线(baseline)方案与代码 本次挑战赛使用的技术方法不限。本文介绍南栖仙策为挑战赛提供的基线方案。基线方案基于 Polixir Revive SDK 【下载地址】,基线代码与样例提交代码参见比赛所提供的 starting_kit.zip。 在此方案...
    赞 3
    评论 4
    浏览 589
    学科竞赛
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2021-12-24 13:47:32

    AI决策•强化学习落地挑战赛——学习制定平等的促销策略,报名火热进行中

    AI 决策•强化学习挑战赛【学习制定平等的促销策略】,报名火热进行中。比赛诚邀“挑战者”以 AI 营销策略者的身份共同助力智能营销,解决保障消费者权益前提下的营销挑战,考察参赛者 AI 决策的落地能力。欢迎前来挑战! 【比赛背景】 强化学习在围棋、游戏等...
    赞 1
    评论 1
    浏览 579
    学科竞赛
  • 因果与Markov
    因果与Markov 因果与Markov 这家伙很懒,什么都没留下
    发布于2021-12-13 21:48:17
    就目前我所看到的model-based方法中,对于transition model的建模(or估计)都是直接把数据(如果是图像就可能用个VAE提取latent vector)输入到神经网络(不管是MLP还是RNN也好)中,直接对这个转移分布P进行建模,但是这种方法必然是存在一些“不该有”的bias。这个“不该有”的bias可以通过单纯利用状态的Causal parent去对transition model进行建模从而消除,但是问题在于,如何去寻找这个Causal Parent呢?能不能寻找与建模同时进行呢?
    赞
    评论
    浏览 238
    论文研讨
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2021-12-16 18:14:41

    NeoRL: 接近真实世界的离线强化学习基准

    众所周知,强化学习(RL)在游戏界的成功已经在 AI 界产生了轰动 ,不管是玩出历史高分的微软 AI,还是继围棋之后,人工智能又攻克的德州扑克,亦或是利用“左右互搏”来增强学习的 OpenAI。人工智能在不同的游戏中的最新得分已经超越了人类的水平。 当大家...
    赞 2
    评论
    浏览 326
    产业应用
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-01-27 14:59:53

    【更新•比赛基线(baseline)方案】 AI决策•强化学习落地挑战赛——学习制定平等的促销策略

    本文重新更新了南栖仙策为挑战赛提供的基线方案,对基线方案做了更详细说明,欢迎大家查阅详细方案。 更新点: 1、 Revive SDK 更新至 0.6.0 版本; 2、 整理 baseline 代码,以提高可读性,并方便状态等的自定义修改(请关注新增的 u...
    赞
    评论
    浏览 280
    学科竞赛
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-01-27 18:43:13

    【VSCode Polixir Revive插件发布 • 基于Revive插件的Baseline设计】AI决策•强化学习落地挑战赛——学习制定平等的促销策略

    本文提供了南栖仙策发布的 VSCode Polixir Revive 插件,以及基于此插件的基线(Baseline)方案设计指导,欢迎查阅。 1、VSCode Polixir Revive 插件正式发布 https://marketplace.visual...
    赞
    评论
    浏览 322
    学科竞赛
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-01-06 13:03:05

    【更新•基线(baseline)方案详解与代码示例】 AI决策•强化学习落地挑战赛——学习制定平等的促销策略

    本文更新了南栖仙策为挑战赛提供的基线方案,对基线方案做了更详细说明,以及说明了如何评估和改善基线训练出的环境和模型策略。欢迎大家下载查阅。 1、基线方案基于 Polixir Revive SDK 【下载地址】 2、基线代码,样例提交代码,以及用于指导参赛者...
    赞
    评论
    浏览 309
    学科竞赛
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-02-11 15:19:16

    【复赛正式开启•报名参赛持续进行中】AI决策•强化学习落地挑战赛——学习制定平等的促销策略

    AI 决策•强化学习挑战赛【学习制定平等的促销策略】,复赛正式开启中,同时继续开启注册参加比赛窗口,欢迎更多爱好者前来挑战! 【比赛概览】 1、为了鼓励更多参赛队伍参加竞赛,所有已注册队伍和个人都将自动进入下一轮竞赛 进入复赛队伍通过比赛平台下载新提供的更...
    赞
    评论
    浏览 214
    学科竞赛
  • hba
    hba hba RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-02-28 22:26:57

    (RL 正在改变世界!贝尔曼方程是#RL 的核心。这是一个 3 (3.5:P) 步骤的简明证明)

    赞 6
    评论 2
    浏览 312
    课程学习
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-02-28 18:15:37

    【比赛结果公布】AI决策•强化学习落地挑战赛——学习制定平等的促销策略

    AI 决策•强化学习挑战赛【学习制定平等的促销策略】,比赛结果新鲜出炉,欢迎小伙伴们一起围观 TOP5 队伍吧! 【竞赛背景】 强化学习在围棋、游戏等环境展示出超越人类的决策能力。为促进强化学习在真实场景的应用,江苏省人工智能学会联合南栖仙策发起此次竞赛。...
    赞 1
    评论
    浏览 403
    学科竞赛
  • hba
    hba hba RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-02 05:44:26
    ELBO in 5 simple steps starting direclty from Bayes Rule!
    赞 3
    评论
    浏览 208
    课程学习
  • hba
    hba hba RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-02 22:47:19

    Iterated Law of Expectation Consice Proof (6 simple steps)

    When deriving the Belman equations, we needed the iterated law of expectations. Rather than believing me, have a look at this 6-...
    赞 2
    评论
    浏览 157
    课程学习
  • 孟令辉
    孟令辉 孟令辉 中科院自动化所2019级直博生 主要关注多智能体强化学习相关方向,包括强化学习预训练、表征强化学习
    发布于2022-04-09 17:29:50

    RLChina 论文研讨会第16期(2022.04.12直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 16 期论文讨论会将由中科院自动化所博士生孟令辉同学主持,罗格斯大学博士生邱文杰、清华大学博士生杨以钦和中科院自动化...
    赞 1
    评论
    浏览 266
    学术活动
签到
0
立即签到
公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 强化学习暑期课(每年):http://rlchina.org/topic/9

三、RLChina 智能体挑战赛(每季):http://rlchina.org/topic/216

四、RLChina 前沿讲习班(每月):http://rlchina.org/topic/215

五、RLChina 论文研讨会(每周):http://rlchina.org/topic/219

积分排行
  • RLChina
    RLChina

    59 帖子 • 49 评论

    255
  • Carlos
    Carlos

    2 帖子 • 2 评论

    207
  • Rewrite
    Rewrite

    0 帖子 • 1 评论

    133
  • 支太行
    支太行

    17 帖子 • 34 评论

    131
  • POLIXIR
    POLIXIR

    13 帖子 • 2 评论

    120
  • 张海峰
    张海峰

    4 帖子 • 32 评论

    116
  • AINova
    AINova

    19 帖子 • 38 评论

    85
  • daydayup
    daydayup

    4 帖子 • 33 评论

    82
  • vinbo
    vinbo

    6 帖子 • 32 评论

    82
  • 从头再来
    从头再来

    14 帖子 • 41 评论

    80
友情链接 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

关于 标签 友链
© 2021 Powered by 中国科学院自动化研究所群体决策智能实验室