RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • W
    W wanghz123 这家伙很懒,什么都没留下
    发布于10天前

    离线强化学习loss和收益的关系

    目前在用离线强化学习算法 cql 做项目,缺少实际测试环境来验证策略,那么怎么根据模型的 critic loss 和 actor loss 判断模型是否收敛呢? 目前发现 actor loss 在上升,但是通过对输出动作分析,发现还是学到了一些对的策略,但...
    赞
    评论
    浏览 78
    水区
  • cchenmy111
    cchenmy111 cchenmy111 这家伙很懒,什么都没留下
    发布于22天前

    多智能体强化学习求助!

    训练效果很好,奖励看着也收敛,最后的智能体表现在训练结束前的 100 个 episode 表现都不错,为什么最后保存下来的模型加载评估的时候效果大打折扣?已经开启了。eval(),然后评估时为了看智能体学习的程度,我没有更换评估的环境,仍然是之前训练的环境...
    赞
    评论 10
    浏览 176
    水区
  • dashang001
    dashang001 dashang001 这家伙很懒,什么都没留下
    发布于24天前
    123123
    赞
    评论
    浏览 95
    水区
  • 星
    星 星空713 这家伙很懒,什么都没留下
    发布于2025-03-05 17:03:31

    上海算法创新研究院:推理大模型算法实习生招聘(强化方向)

    【简介】我们是上海算法创新研究院的大模型团队,成员来自于普林斯顿大学、卡内基梅隆大学、北京大学、上海交通大学、浙江大学、中科院等国内外知名高校和阿里、华为、美团等知名企业,具有丰富的研究和实践经验。我们致力于探索创建行业领先的大模型,为行业共性需求提供解决...
    赞
    评论
    浏览 331
    水区
  • Willing Star
    Willing Star Willing Star 这家伙很懒,什么都没留下
    发布于2025-03-02 17:49:20

    UCL强化学习派:汪军与他的学生们

    拜读了文章 UCL 强化学习派:汪军与他的学生们,都是 RLC 课程上课的老师,亲切又敬佩。
    赞 1
    评论
    浏览 360
    水区
  • B
    B BrandonLiu 这家伙很懒,什么都没留下
    发布于2024-12-31 02:20:20

    NeurIPS 2024 | DACER:扩散模型与在线强化学习强强联合创造新SOTA!

    本文介绍清华大学智能驾驶课题组(iDLab)在 NeurIPS 2024 发表的最新研究成果《Diffusion Actor-Critic with Entropy Regulator》。该算法创新性地将扩散模型的反向过程作为策略函数,使在线强化学习算法能...
    赞 1
    评论
    浏览 419
    水区
  • R
    R rlchina-baishi 这家伙很懒,什么都没留下
    发布于2024-07-16 10:02:13

    多智能体训练中,qmix、vdn发散而ippo缓慢收敛

    代码使用的是 pymarl,环境是 cityflow,评价指标是 average travel time(越小越好),可见 ippo 的评价指标缓慢变小,qmix、vdn 直接发散了。 导致发散的可能原因是什么呢? ippo 收敛慢又是什么原因呢? i...
    赞
    评论 3
    浏览 755
    水区
  • cloudpetticoats
    cloudpetticoats cloudpetticoats cs在读研究生
    发布于2024-11-28 22:39:45

    DQN求解优化问题总收敛到边界值?

    大佬们,我正在用 GAT+DQN 求解一个离散优化问题,action 是 n 维的二进制变量(n 会变化,所以用 GAT),优化目标设定为一个正的即时奖励,还有两个约束,不满足约束会给一个大的负奖励,用 epsilong-greedy 随机探索二进制变量。...
    赞
    评论
    浏览 263
    水区
  • B
    B buaacaver 这家伙很懒,什么都没留下
    发布于2024-11-26 09:53:36

    rlchina2024的多智能体合作与博弈专题视频回放在哪里看呢

    找了官网和 b 站里的多智能体合作与博弈视频但是没找到,想问一下是后续会继续传到 b 站里吗?还是后面也不会再传了呀
    赞
    评论
    浏览 251
    水区
  • 坤
    坤 坤坤@ubiquant 这家伙很懒,什么都没留下
    发布于2024-11-04 14:48:36

    【九坤投资】量化新星挑战赛|字符猎手挑战赛 报名倒计时7天

    亲爱的同学们:九坤第七届量化联赛第二期 | 字符猎手挑战赛正在火热报名中~报名倒计时7天!诚邀各位加入挑战!!! 【赛题简介】 本期赛题需要选手在字符识别的基础上按照规则完成消除游戏,得分高者即可胜出。比赛设总榜以及两个子榜单,子榜分别关注识别准确率和策略...
    赞 1
    评论
    浏览 382
    水区
  • J
    J jjx 这家伙很懒,什么都没留下
    发布于2024-10-22 14:03:53

    MADDPG

    GitHub 上开源的关于 maddpg 的代码环境都很老,配置一直错误怎么办? 这是 openai 开源的代码:https://github.com/openai/maddpg 这是环境依赖:Known dependencies: Python (3.5...
    赞
    评论 1
    浏览 347
    水区
  • Jane
    Jane Jane 量化从业6年+/求贤若渴/不设阈值 wechat:Tangle_2013
    发布于2024-10-22 20:34:20

    【九坤投资】量化新星挑战赛|字符猎手挑战赛 报名邀请函

    亲爱的同学们:九坤第七届量化联赛第二期 | 字符猎手挑战赛正式开启报名! 【赛题简介】 本期赛题目标是让选手在交互式的游戏环境中,设计模型与游戏策略,确保模型能够准确识别游戏画面中的每个格子的字符类型,并合理执行动作,使得智能体获得游戏高分。本期比赛将着重...
    赞 1
    评论
    浏览 478
    水区
  • Error_666
    Error_666 Error_666 Work hard, be nice.
    发布于2024-10-07 22:39:11

    TD时序差分算法的off-policy version的疑问

    目前对 off-policy 的理解是,生成 experience 数据的 policy 与优化出的 policy 不同。 那么如果是这样的话,与 on-policy 相比,感觉很难得到真正的最优 policy,因为它是在生成 experience 数据的...
    赞
    评论 2
    浏览 458
    水区
  • 九
    九 九章二节 这家伙很懒,什么都没留下
    发布于2024-04-28 19:32:21

    平台有考虑加个搜索功能吗?

    翻旧贴很不方便
    赞 4
    评论 4
    浏览 1139
    水区
  • 白辰甲(TeleAI)
    白辰甲(TeleAI) 白辰甲(TeleAI) 强化学习
    发布于2024-08-19 14:59:20

    具身智能实习生招聘(上海)

    白辰甲课题组招收具身智能/强化学习方向实习生 职责:进行相关科研工作,发表高水平国际学术论文。具体方向包括: 强化学习方向,包含离线学习、多智能体学习、探索和表征、安全强化学习、偏好学习、迁移和泛化等主题。 决策大模型,包括 LLM 规划,世界模型学习,多...
    赞 1
    评论
    浏览 910
    水区
  • T
    T TJU-NF 这家伙很懒,什么都没留下
    发布于2024-08-05 09:31:44

    RLChina 论文研讨会第96期(2024.8.06直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 96 期论文研讨会将由天津大学博士生倪飞主持,天津大学硕士生陈逸彬、天津大学博士生刘金毅和天津大学博士生李鹏翼为大家...
    赞
    评论 2
    浏览 919
    水区
  • POLIXIR
    POLIXIR POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。
    发布于2024-07-26 11:12:22

    矢量智控L3级水务智能化——智慧加氯让生活用水无忧“氯”

    近年来,随着居民对于用水安全和用水品质要求的不断提高,水处理技术和用水水质指标成为公众关注的焦点。加之国家相继颁布并完善了一系列法规,包括新国家标准《生活饮用水卫生标准》和《关于加强城市供水安全保障工作的通知》等,显现了政府对城镇供水这一重要民生工程的高度...
    赞
    评论
    浏览 604
    水区
  • Jane
    Jane Jane 量化从业6年+/求贤若渴/不设阈值 wechat:Tangle_2013
    发布于2024-07-26 10:50:39

    【九坤投资仲夏赛季】量化新星挑战赛|股票模拟交易赛 报名邀请函

    亲爱的同学们:九坤股票模拟交易赛正式开启报名! 全球顶尖高手同台竞技 体验真实的量化交易 过一把 quant trader 瘾 超丰厚奖金拿到手软 【赛题简介】 本次比赛平台为模拟股票交易所,该平台以真实股票市场数据为基础通过衍生数据进行模拟撮合交易;同时...
    赞 2
    评论 1
    浏览 971
    水区
  • 张知临
    张知临 张知临 这家伙很懒,什么都没留下
    发布于2024-07-13 22:40:11

    适合RLer参加的国际大型比赛 - NeurIPS Competition 2024:Auto-Bidding in Large-Scale Auctions(大规模拍卖中的自动出价)

    一:赛题介绍 NeurIPS 神经信息处理系统大会(Conference on Neural Information Processing Systems,简称 NeurIPS 2024 ),是人工智能和机器学习领域的国际顶级会议,也是 CCF 推荐的 A...
    赞 2
    评论
    浏览 782
    水区
  • Yuding
    Yuding Yuding 这家伙很懒,什么都没留下
    发布于2024-03-12 20:40:37

    有关强化学习奖励在训练300万轮中存在先上升稳定,又突然下降现象的产生原因

    请各位大佬帮忙解答一下,奖励函数出现剧烈下降的可能原因
    赞 1
    评论 15
    浏览 2113
    水区
公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 2024 大会(可下载课件):http://rlchina.org/rlchina_2024

三、RLChina 2023 大会(可下载课件):http://rlchina.org/rlchina_2023

四、RLChina 2022 强化学习暑期课:http://rlchina.org/topic/491

五、RLChina 2021 强化学习暑期课:http://rlchina.org/topic/9?utm_source=pocket_saves

六、RLChina 智能体挑战赛:http://rlchina.org/topic/928

七、RLChina 前沿讲习班:http://rlchina.org/topic/215

八、RLChina 论文研讨会:http://rlchina.org/topic/219

合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

签到
0
立即签到
积分排行
  • Carlos
    Carlos

    2 帖子 • 4 评论

    957
  • Frei0d
    Frei0d

    1 帖子 • 9 评论

    898
  • R
    Rlxia

    0 帖子 • 0 评论

    564
  • RLChina
    RLChina

    124 帖子 • 77 评论

    454
  • POLIXIR
    POLIXIR

    44 帖子 • 5 评论

    351
  • Rewrite
    Rewrite

    0 帖子 • 4 评论

    215
  • vinbo
    vinbo

    9 帖子 • 84 评论

    167
  • 支太行
    支太行

    17 帖子 • 34 评论

    133
  • 张海峰
    张海峰

    4 帖子 • 43 评论

    132
  • AINova
    AINova

    20 帖子 • 43 评论

    99
关于 标签 友链