RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • Error_666
    Error_666 Error_666 Work hard, be nice.
    发布于2024-10-07 22:39:11

    TD时序差分算法的off-policy version的疑问

    目前对 off-policy 的理解是,生成 experience 数据的 policy 与优化出的 policy 不同。 那么如果是这样的话,与 on-policy 相比,感觉很难得到真正的最优 policy,因为它是在生成 experience 数据的...
    赞
    评论 2
    浏览 469
    水区
  • F
    F Fox 这家伙很懒,什么都没留下
    发布于2023-09-01 21:42:49

    奖励设置问题

    环境是一个图网络,其中,规定了起点、终点和最大行驶距离(路径的权重和)。现在每条边上都有一个信息量可收集,我们期望在已有约束下最大化信息量收集。 目前的做法是 将下一个动作获取的信息量(即下一步走过的边上的信息量)作为奖励。 现在在训练中发现,由于所有合法...
    赞 3
    评论 2
    浏览 851
    水区
  • Haitham Bou Ammar
    Haitham Bou Ammar Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-02 22:47:19

    Iterated Law of Expectation Consice Proof (6 simple steps)

    When deriving the Belman equations, we needed the iterated law of expectations. Rather than believing me, have a look at this 6-...
    赞 3
    评论 1
    浏览 1374
    课程学习
  • Haitham Bou Ammar
    Haitham Bou Ammar Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-07 02:52:21
    A 4 step proof that value baselines don't affect policy grads in #RL😀Just the log-trick & Fubini gets u there!
    赞 8
    评论 4
    浏览 1733
    课程学习
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-07-14 10:37:45

    「仙启教学视频」基于VS Code的POLIXIR REVIVE SDK 开发,数据驱动强化学习(离线强化学习)开发工具包辅助插件

    基于 VS Code 的 POLIXIR REVIVE SDK 开发,数据驱动强化学习(离线强化学习)开发工具包辅助插件教学视频已发布,欢迎小伙伴们查阅观看! 视频观看,详见南栖仙策 B 站:基于 VS Code 的 POLIXIR REVIVE SDK ...
    赞
    评论 5
    浏览 1186
    实用工具
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2021-12-25 09:43:32

    【比赛专用】 AI决策•强化学习落地挑战赛——学习制定平等的促销策略,基线(baseline)方案与代码

    基线(baseline)方案与代码 本次挑战赛使用的技术方法不限。本文介绍南栖仙策为挑战赛提供的基线方案。基线方案基于 Polixir Revive SDK 【下载地址】,基线代码与样例提交代码参见比赛所提供的 starting_kit.zip。 在此方案...
    赞 3
    评论 4
    浏览 1576
    学科竞赛
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2021-12-24 13:47:32

    AI决策•强化学习落地挑战赛——学习制定平等的促销策略,报名火热进行中

    AI 决策•强化学习挑战赛【学习制定平等的促销策略】,报名火热进行中。比赛诚邀“挑战者”以 AI 营销策略者的身份共同助力智能营销,解决保障消费者权益前提下的营销挑战,考察参赛者 AI 决策的落地能力。欢迎前来挑战! 【比赛背景】 强化学习在围棋、游戏等...
    赞 1
    评论 1
    浏览 1584
    学科竞赛
  • Haitham Bou Ammar
    Haitham Bou Ammar Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-03-02 05:44:26
    ELBO in 5 simple steps starting direclty from Bayes Rule!
    赞 3
    评论
    浏览 1262
    课程学习
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-07-04 15:29:10

    【REVIVE SDK版本更新】REVIVE SDK 0.7.2版正式发布

    REVIVE SDK 0.7.2 版正式发布,欢迎小伙伴们下载使用。 1、REVIVE SDK 0.7.2 下载地址:REVIVE SDK 首页 2、REVIVE SDK 0.7.2 文档地址: REVIVE 帮助中心 3、REVIVE SDK 0.7....
    赞
    评论
    浏览 932
    实用工具
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-07-05 14:01:28

    「仙启」REVIVE SDK下载与安装(基于Docker),数据驱动强化学习(离线强化学习)开发工具包

    数据驱动强化学习(离线强化学习)开发工具包 REVIVE SDK 下载与安装(基于 Docker)的教学视频已发布,欢迎小伙伴们查阅观看! 视频观看,详见南栖仙策 B 站:REVIVE SDK 下载与安装(基于 Docker) 【POLIXIR REVIV...
    赞
    评论
    浏览 1048
    实用工具
  • OpenDILab决策智能
    OpenDILab决策智能 OpenDILab决策智能 聚焦科技前沿研究问题,致力于探索下一代人工智能
    发布于2022-07-06 11:13:42
    第3期Insight Time前沿技术交流分享会马上又要和大家见面了!本期邀请的嘉宾是来自悉尼大学的在读博士生Yae同学,其研究方向为计算机视觉和强化学习,目前专注于离线强化学习及多智能体强化学习。 本次分享将会带来: - 了解决策AI大模型训练的基本原理 - 掌握大模型训练的监督、自监督学习技术应用于序列决策任务的创新思路 - 了解大型通用模型训练的更多应用性 请锁定7月6日(周三)晚8点的直播哦~
    赞
    评论
    浏览 790
    学术活动
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-07-01 16:34:12

    【REVIVE IDE发布】POLIXIR REVIVE For VS Code 1.0正式发布

    POLIXIR REVIVE For VS Code 1.0 正式发布,欢迎小伙伴们下载试用。 1、POLIXIR REVIVE For VS Code 1.0 正式发布: https://marketplace.visualstudio.com/item...
    赞
    评论
    浏览 911
    实用工具
  • 孟令辉
    孟令辉 孟令辉 中科院自动化所2019级直博生 主要关注多智能体强化学习相关方向,包括强化学习预训练、表征强化学习
    发布于2022-04-09 17:29:50

    RLChina 论文研讨会第16期(2022.04.12直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 16 期论文讨论会将由中科院自动化所博士生孟令辉同学主持,罗格斯大学博士生邱文杰、清华大学博士生杨以钦和中科院自动化...
    赞 1
    评论
    浏览 1839
    学术活动
  • 因果与Markov
    因果与Markov 因果与Markov 这家伙很懒,什么都没留下
    发布于2021-12-13 21:48:17
    就目前我所看到的model-based方法中,对于transition model的建模(or估计)都是直接把数据(如果是图像就可能用个VAE提取latent vector)输入到神经网络(不管是MLP还是RNN也好)中,直接对这个转移分布P进行建模,但是这种方法必然是存在一些“不该有”的bias。这个“不该有”的bias可以通过单纯利用状态的Causal parent去对transition model进行建模从而消除,但是问题在于,如何去寻找这个Causal Parent呢?能不能寻找与建模同时进行呢?
    赞
    评论
    浏览 1096
    论文研讨
  • Criswim
    Criswim Criswim 这家伙很懒,什么都没留下
    发布于2025-04-17 20:11:08

    RLChina 论文研讨会第113期(2025.04.22直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 114 期论文研讨会将由清华大学自动化系博士生毛逸休主持,清华大学自动化系博士生曲云为大家分享最新的研究工作,欢迎大...
    赞 1
    评论
    浏览 265
    论文研讨
  • Haitham Bou Ammar
    Haitham Bou Ammar Haitham Bou Ammar RL team leader @Huawei R&D UK & UCL H. Assistant Prof.
    发布于2022-02-28 22:26:57

    (RL 正在改变世界!贝尔曼方程是#RL 的核心。这是一个 3 (3.5:P) 步骤的简明证明)

    赞 6
    评论 2
    浏览 1460
    课程学习
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-02-11 15:19:16

    【复赛正式开启•报名参赛持续进行中】AI决策•强化学习落地挑战赛——学习制定平等的促销策略

    AI 决策•强化学习挑战赛【学习制定平等的促销策略】,复赛正式开启中,同时继续开启注册参加比赛窗口,欢迎更多爱好者前来挑战! 【比赛概览】 1、为了鼓励更多参赛队伍参加竞赛,所有已注册队伍和个人都将自动进入下一轮竞赛 进入复赛队伍通过比赛平台下载新提供的更...
    赞
    评论
    浏览 1027
    学科竞赛
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-01-06 13:03:05

    【更新•基线(baseline)方案详解与代码示例】 AI决策•强化学习落地挑战赛——学习制定平等的促销策略

    本文更新了南栖仙策为挑战赛提供的基线方案,对基线方案做了更详细说明,以及说明了如何评估和改善基线训练出的环境和模型策略。欢迎大家下载查阅。 1、基线方案基于 Polixir Revive SDK 【下载地址】 2、基线代码,样例提交代码,以及用于指导参赛者...
    赞
    评论
    浏览 1237
    学科竞赛
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-01-27 18:43:13

    【VSCode Polixir Revive插件发布 • 基于Revive插件的Baseline设计】AI决策•强化学习落地挑战赛——学习制定平等的促销策略

    本文提供了南栖仙策发布的 VSCode Polixir Revive 插件,以及基于此插件的基线(Baseline)方案设计指导,欢迎查阅。 1、VSCode Polixir Revive 插件正式发布 https://marketplace.visual...
    赞
    评论
    浏览 1201
    学科竞赛
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2022-01-27 14:59:53

    【更新•比赛基线(baseline)方案】 AI决策•强化学习落地挑战赛——学习制定平等的促销策略

    本文重新更新了南栖仙策为挑战赛提供的基线方案,对基线方案做了更详细说明,欢迎大家查阅详细方案。 更新点: 1、 Revive SDK 更新至 0.6.0 版本; 2、 整理 baseline 代码,以提高可读性,并方便状态等的自定义修改(请关注新增的 u...
    赞
    评论
    浏览 1342
    学科竞赛
签到
0
立即签到
合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 2024 大会(可下载课件):http://rlchina.org/rlchina_2024

三、RLChina 2023 大会(可下载课件):http://rlchina.org/rlchina_2023

四、RLChina 2022 强化学习暑期课:http://rlchina.org/topic/491

五、RLChina 2021 强化学习暑期课:http://rlchina.org/topic/9?utm_source=pocket_saves

六、RLChina 智能体挑战赛:http://rlchina.org/topic/928

七、RLChina 前沿讲习班:http://rlchina.org/topic/215

八、RLChina 论文研讨会:http://rlchina.org/topic/219

积分排行
  • Carlos
    Carlos

    2 帖子 • 4 评论

    957
  • Frei0d
    Frei0d

    1 帖子 • 9 评论

    905
  • R
    Rlxia

    0 帖子 • 0 评论

    566
  • RLChina
    RLChina

    124 帖子 • 77 评论

    454
  • POLIXIR
    POLIXIR

    44 帖子 • 5 评论

    351
  • Rewrite
    Rewrite

    0 帖子 • 4 评论

    215
  • vinbo
    vinbo

    9 帖子 • 84 评论

    167
  • 支太行
    支太行

    17 帖子 • 34 评论

    133
  • 张海峰
    张海峰

    4 帖子 • 43 评论

    132
  • AINova
    AINova

    20 帖子 • 43 评论

    99
关于 标签 友链