RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • Heron_7
    Heron_7 Heron_7 这家伙很懒,什么都没留下
    发布于2025-04-01 20:11:32

    零编程基础入门RL求助(请教各位大佬

    各位大佬好,我是三年级在读电子信息工程专业本科生,由于之前没有想过转码也没有什么编程方面的课程,现在的代码功底比较差。但是 Py 的基础语法我都学过一遍,但是感觉写的都不是很精。尤其是类和对象那一块,在看张伟楠老师的动手学 RL 那本书的时候发现自己可以懂...
    赞
    评论 9
    浏览 333
    课程学习
  • Z
    Z Zhengbang Zhu 这家伙很懒,什么都没留下
    发布于2天前

    RLChina 论文研讨会第116期(2025.5.20直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 116 期论文研讨会将由上海交通大学博士生竺正邦主持,上海交通大学博士生陈竞潇和上海交通大学本科生韩潇申为大家分享最...
    赞
    评论
    浏览 49
    论文研讨
  • H
    H harry 这家伙很懒,什么都没留下
    发布于6天前

    RLChina 论文研讨会第115期(2025.5.13直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 115 期论文研讨会将由中国科学技术大学博士生宋昊霖主持, 中国科学技术大学博士生耿子介、王泓为大家分享最新的研究工...
    赞
    评论
    浏览 96
    论文研讨
  • W
    W wanghz123 这家伙很懒,什么都没留下
    发布于10天前

    离线强化学习loss和收益的关系

    目前在用离线强化学习算法 cql 做项目,缺少实际测试环境来验证策略,那么怎么根据模型的 critic loss 和 actor loss 判断模型是否收敛呢? 目前发现 actor loss 在上升,但是通过对输出动作分析,发现还是学到了一些对的策略,但...
    赞
    评论
    浏览 78
    水区
  • cchenmy111
    cchenmy111 cchenmy111 这家伙很懒,什么都没留下
    发布于22天前

    多智能体强化学习求助!

    训练效果很好,奖励看着也收敛,最后的智能体表现在训练结束前的 100 个 episode 表现都不错,为什么最后保存下来的模型加载评估的时候效果大打折扣?已经开启了。eval(),然后评估时为了看智能体学习的程度,我没有更换评估的环境,仍然是之前训练的环境...
    赞
    评论 10
    浏览 176
    水区
  • 刘
    刘 刘金毅 这家伙很懒,什么都没留下
    发布于23天前

    RLChina 论文研讨会第114期(2025.4.29直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 114 期论文研讨会将由天津大学博士生刘金毅主持,天津大学博士生刘金毅、天津大学硕士生程荣、天津大学硕士生崔海勤为大...
    赞 1
    评论
    浏览 226
    论文研讨
  • dashang001
    dashang001 dashang001 这家伙很懒,什么都没留下
    发布于24天前
    123123
    赞
    评论
    浏览 95
    水区
  • Criswim
    Criswim Criswim 这家伙很懒,什么都没留下
    发布于29天前

    RLChina 论文研讨会第113期(2025.04.22直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 114 期论文研讨会将由清华大学自动化系博士生毛逸休主持,清华大学自动化系博士生曲云为大家分享最新的研究工作,欢迎大...
    赞 1
    评论
    浏览 246
    论文研讨
  • 南荣遥羿
    南荣遥羿 南荣遥羿 几乎是废学忘习地寝食。
    发布于2024-09-05 13:53:56

    入门强化学习的小白求助

    各位前辈们好,我目前本科软件工程二年级在读,在自学 CS285 等相关课程,有些吃力。想问问前辈们有无深度强化学习的入门经验或者学习路线的分享?! 或者近期有哪些很不错的方向值得关注和研究! 欢迎批评和指导,谢谢大家。
    赞
    评论 5
    浏览 1500
    课程学习
  • C
    C castor_v_pollux 这家伙很懒,什么都没留下
    发布于2025-03-31 02:46:47

    RLChina 论文研讨会第112期(2025.4.1直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 112 期论文研讨会将由北京大学博士生鲁云龙主持,北京大学博士生袁昊琦和北京大学本科生黄子烨为大家分享最新的研究工作...
    赞
    评论 1
    浏览 284
    论文研讨
  • pan95732
    pan95732 pan95732 pan95732
    发布于2025-03-28 15:20:07

    找线上辅导老师(pyspark、爬虫、数据库...)

    根据要求完成操作系统相关题目,也就是用英文做题, 只要你日常专业的核心课程掌握的扎实,有空闲时间那么这个线上做题就非常适合你 pyspark、爬虫、数据库、Docker、安卓、汇编、并行计算、数电逻辑、 VHDL、fpga、APP 设计、电路设计、3D 建...
    赞
    评论 1
    浏览 165
    学术活动
  • Jane
    Jane Jane 量化从业6年+/求贤若渴/不设阈值 wechat:Tangle_2013
    发布于2025-03-31 13:24:36
    各位玩家:九坤第八届量化联赛第一期 | UbiPoker AI赛开启报名! 【赛题简介】 本期比赛中,我们将带领大家挑战经典AI赛事,体验Poker AI对抗的魅力 【技能挑战】 (1)本期比赛将着重考察参赛者:AI设计能力,概率分析能力,实际问题解决能力 (2)选手需要以我们提供的程序平台为基础,可基于规则利用机器学习等方法,用自己擅长的策略开发一套AI程序,这些AI会在我们提供的平台上进行随机对抗,期待各位的表现。 【赛事激励】 Ubiquant opportunities:赛事专属面试直通卡 Ubiquant gifts:丰厚赛事奖金和奖品 Ubiquant challenge:硬核量化技术挑战 Ubiquant Conection:量化沙龙分享 本期奖项设置 冠军团队:50,000 元现金及荣誉证书 每位选手可获得 新款iPad Air11英寸 亚军团队:30,000 元现金及荣誉证书 每位选手可获得 Apple Watch Series 10 季军团队:10,000 元现金及荣誉证书 每位选手可获得 富士mini Liplay拍立得 UbiPoker特色队伍奖 - 5,000 元现金及荣誉证书 - SLOWPLAY Poker陶瓷筹码套装 点击下方链接立即报名,开启你的量化之旅。 比赛详情:https://mp.weixin.qq.com/s/ONfS_HNqX_jtvyFySQQ4sw
    赞
    评论
    浏览 285
    学科竞赛
  • 薛
    薛 薛正海-NTU 这家伙很懒,什么都没留下
    发布于2025-03-17 10:57:53

    RLChina 论文研讨会第110期 (2025.3.18直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 110 期论文研讨会将由新加坡南洋理工大学博士生李晔文和薛正海为大家分享最新的研究工作,欢迎大家参与。 互动方式:在...
    赞
    评论 1
    浏览 385
    论文研讨
  • 汤
    汤 汤楠-NJU 这家伙很懒,什么都没留下
    发布于2025-03-18 11:28:48

    RLChina 论文研讨会第111期 (2025.3.25直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 111 期论文研讨会将由南京大学博士生汤楠主持,南京大学博士生王鹏远、南京大学博士生林浩鑫和南京大学博士生汤楠为大家...
    赞 1
    评论
    浏览 283
    论文研讨
  • pan95732
    pan95732 pan95732 pan95732
    发布于2023-08-27 16:24:26

    招聘线上答疑老师

    【介绍】 我们是一家专注于为大学生群体提供课后习题答疑的教育机构,采用网络 1 对 1 的答疑形式。在这里,我们能提供不同难度的习题辅导的机会。只要您有电脑,学习成绩优秀,在空闲时解题,然后用文字 or 文档的形式给学生答疑解惑即可。 【时间】 我们是灵活...
    赞 1
    评论 5
    浏览 1270
    招生招聘
  • FanWT
    FanWT FanWT 2023级硕士研究生
    发布于2025-03-14 11:20:58

    金榜题名 | AAMAS 2025 计算经济学挑战赛开始报名!

    金榜题名 “金榜题名”是 RLChina 公众号的一个栏目,发布决策智能相关的竞赛信息。 导读 在现实生活中,税收 和 公共开销 是影响社会经济发展和财富分配的两大核心政策工具。政府需要根据人民的实际情况,动态调整税收与支出政策,以促进经济增长、保障社会公...
    赞 2
    评论
    浏览 660
    学科竞赛
  • 星
    星 星空713 这家伙很懒,什么都没留下
    发布于2025-03-05 17:03:31

    上海算法创新研究院:推理大模型算法实习生招聘(强化方向)

    【简介】我们是上海算法创新研究院的大模型团队,成员来自于普林斯顿大学、卡内基梅隆大学、北京大学、上海交通大学、浙江大学、中科院等国内外知名高校和阿里、华为、美团等知名企业,具有丰富的研究和实践经验。我们致力于探索创建行业领先的大模型,为行业共性需求提供解决...
    赞
    评论
    浏览 331
    水区
  • kevinliu
    kevinliu kevinliu 这家伙很懒,什么都没留下
    发布于2025-03-03 17:10:22

    神经网络优化器进化论:从SGD到RAD,读懂AI训练的内功心法

    当 ChatGPT-o3 以近乎博士生水平解答各类难题,当 DeepSeek-R1 在复杂推理任务中超越顶尖工程师,我们惊叹于大模型“智能涌现”的奇迹,然而鲜有人意识到:这些拥有千亿参数的“数字大脑”,本质上是从初始混沌状态,通过数万小时的反复训练渐渐成形...
    赞 4
    评论 1
    浏览 430
    经验分享
  • Willing Star
    Willing Star Willing Star 这家伙很懒,什么都没留下
    发布于2025-03-02 17:49:20

    UCL强化学习派:汪军与他的学生们

    拜读了文章 UCL 强化学习派:汪军与他的学生们,都是 RLC 课程上课的老师,亲切又敬佩。
    赞 1
    评论
    浏览 361
    水区
  • pan95732
    pan95732 pan95732 pan95732
    发布于2023-10-03 15:04:20

    招聘线上答疑老师

    【介绍】 我们是一家专注于为大学生群体提供课后习题答疑的教育机构,采用网络 1 对 1 的答疑形式。在这里,我们能提供不同难度的习题辅导的机会。只要您有电脑,学习成绩优秀,在空闲时解题,然后用文字 or 文档的形式给学生答疑解惑即可。 【时间】 我们是灵活...
    赞 1
    评论 5
    浏览 1232
    招生招聘
公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 2024 大会(可下载课件):http://rlchina.org/rlchina_2024

三、RLChina 2023 大会(可下载课件):http://rlchina.org/rlchina_2023

四、RLChina 2022 强化学习暑期课:http://rlchina.org/topic/491

五、RLChina 2021 强化学习暑期课:http://rlchina.org/topic/9?utm_source=pocket_saves

六、RLChina 智能体挑战赛:http://rlchina.org/topic/928

七、RLChina 前沿讲习班:http://rlchina.org/topic/215

八、RLChina 论文研讨会:http://rlchina.org/topic/219

合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

签到
0
立即签到
积分排行
  • Carlos
    Carlos

    2 帖子 • 4 评论

    957
  • Frei0d
    Frei0d

    1 帖子 • 9 评论

    898
  • R
    Rlxia

    0 帖子 • 0 评论

    564
  • RLChina
    RLChina

    124 帖子 • 77 评论

    454
  • POLIXIR
    POLIXIR

    44 帖子 • 5 评论

    351
  • Rewrite
    Rewrite

    0 帖子 • 4 评论

    215
  • vinbo
    vinbo

    9 帖子 • 84 评论

    167
  • 支太行
    支太行

    17 帖子 • 34 评论

    133
  • 张海峰
    张海峰

    4 帖子 • 43 评论

    132
  • AINova
    AINova

    20 帖子 • 43 评论

    99
关于 标签 友链