RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • S
    S Selena 这家伙很懒,什么都没留下
    发布于1天前

    知名新势力汽车公司求RL算法的高阶

    知名新势力汽车公司在招 RL 算法的高阶 base 北京/上海 主要 for 端到端自动驾驶的业务 感兴趣的同学,可以加我微信 nanaliu1011, 简历可以发我邮箱:selenaliu88@outlook.com
    赞
    评论
    浏览 17
    水区
  • S
    S Selena 这家伙很懒,什么都没留下
    发布于1天前

    AI Coding Agent的创业公司招RL算法的同学

    AI Coding Agent 的创业公司招 RL 算法的同学, 工作地点:北京/上海 岗位职责 算法设计与优化: 负责设计、优化 Coding Agent 系统的核心算法和模型,不断提升 AI 自动编程的能力和效率; 大模型后训练研发: 开展大语言模型...
    赞
    评论
    浏览 18
    招生招聘
  • Z
    Z zhengrong 这家伙很懒,什么都没留下
    发布于7天前

    RLChina 论文研讨会第119期 (2025.6.10直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由不同的研究团队轮流主持,邀请一线研究人员针对特定论文做交流分享。 第 119 期论文研讨会将由清华大学胡开哲主持,清华大学陆伊炀、上海交通大学郭凌霄为大家分享最新的研究工作,欢迎大家参与。 互动方式:在...
    赞
    评论
    浏览 117
    论文研讨
  • YanSong
    YanSong YanSong 这家伙很懒,什么都没留下
    发布于14天前

    RLChina 论文研讨会第118期(2025.6.3直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 118 期论文研讨会将由伦敦大学学院博士生宋研主持,中国科学院自动化研究所博士生孙罗阳、 华为诺亚伦敦实验室研究科学...
    赞
    评论
    浏览 167
    论文研讨
  • Heron_7
    Heron_7 Heron_7 这家伙很懒,什么都没留下
    发布于2025-04-01 20:11:32

    零编程基础入门RL求助(请教各位大佬

    各位大佬好,我是三年级在读电子信息工程专业本科生,由于之前没有想过转码也没有什么编程方面的课程,现在的代码功底比较差。但是 Py 的基础语法我都学过一遍,但是感觉写的都不是很精。尤其是类和对象那一块,在看张伟楠老师的动手学 RL 那本书的时候发现自己可以懂...
    赞
    评论 16
    浏览 566
    课程学习
  • S
    S spacegoing 这家伙很懒,什么都没留下
    发布于18天前

    京东探索研究院-强化学习-博士实习生 可转正-北京-HC 充足,长期有效

    【工作职责】: LLM Post Training,万卡计算资源,GPU 充足; RL 训练框架搭建; LLM RL 训练理论研究; 强化学习前沿理论研究 (Hierarchical RL, Offline RL, Maximum-entropy RL) ...
    赞
    评论
    浏览 207
    招生招聘
  • KRHKK
    KRHKK KRHKK 这家伙很懒,什么都没留下
    发布于19天前

    RLChina 论文研讨会第117期(2025.5.27直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 117 期论文研讨会将由中科院自动化研究所博士生孙罗洋主持,中科院自动化所博士生 闫雪 和 清华大学硕士生 牛浩懿 ...
    赞
    评论
    浏览 188
    论文研讨
  • Sarah Zheng
    Sarah Zheng Sarah Zheng 热爱!微信18292838990,可随时联系~
    发布于24天前

    网易游戏互娱 | 人工智能实验室招聘AI研究(RL方向)暑期实习生(可转正)

    ## Ai Lab 介绍 网易互娱 AI Lab 成立于 2017 年,是专注于游戏领域的人工智能实验室。我们致力于计算机视觉、自然语言处理和游戏 AI 等游戏场景下的 AI 相关应用落地研究,旨在通过 AI 技术助力网易互娱旗下热门游戏及产品的技术升级,...
    赞 1
    评论
    浏览 192
    招生招聘
  • Z
    Z Zhengbang Zhu 这家伙很懒,什么都没留下
    发布于2025-05-14 18:25:38

    RLChina 论文研讨会第116期(2025.5.20直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 116 期论文研讨会将由上海交通大学博士生竺正邦主持,上海交通大学博士生陈竞潇和上海交通大学本科生韩潇申为大家分享最...
    赞
    评论
    浏览 190
    论文研讨
  • H
    H harry 这家伙很懒,什么都没留下
    发布于2025-05-10 11:23:02

    RLChina 论文研讨会第115期(2025.5.13直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 115 期论文研讨会将由中国科学技术大学博士生宋昊霖主持, 中国科学技术大学博士生耿子介、王泓为大家分享最新的研究工...
    赞
    评论
    浏览 191
    论文研讨
  • W
    W wanghz123 这家伙很懒,什么都没留下
    发布于2025-05-06 17:59:16

    离线强化学习loss和收益的关系

    目前在用离线强化学习算法 cql 做项目,缺少实际测试环境来验证策略,那么怎么根据模型的 critic loss 和 actor loss 判断模型是否收敛呢? 目前发现 actor loss 在上升,但是通过对输出动作分析,发现还是学到了一些对的策略,但...
    赞
    评论
    浏览 170
    水区
  • cchenmy111
    cchenmy111 cchenmy111 这家伙很懒,什么都没留下
    发布于2025-04-23 23:43:15

    多智能体强化学习求助!

    训练效果很好,奖励看着也收敛,最后的智能体表现在训练结束前的 100 个 episode 表现都不错,为什么最后保存下来的模型加载评估的时候效果大打折扣?已经开启了。eval(),然后评估时为了看智能体学习的程度,我没有更换评估的环境,仍然是之前训练的环境...
    赞
    评论 10
    浏览 264
    水区
  • 刘
    刘 刘金毅 这家伙很懒,什么都没留下
    发布于2025-04-23 11:05:31

    RLChina 论文研讨会第114期(2025.4.29直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 114 期论文研讨会将由天津大学博士生刘金毅主持,天津大学博士生刘金毅、天津大学硕士生程荣、天津大学硕士生崔海勤为大...
    赞 1
    评论
    浏览 309
    论文研讨
  • dashang001
    dashang001 dashang001 这家伙很懒,什么都没留下
    发布于2025-04-22 18:21:05
    123123
    赞
    评论
    浏览 176
    水区
  • Criswim
    Criswim Criswim 这家伙很懒,什么都没留下
    发布于2025-04-17 20:11:08

    RLChina 论文研讨会第113期(2025.04.22直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 114 期论文研讨会将由清华大学自动化系博士生毛逸休主持,清华大学自动化系博士生曲云为大家分享最新的研究工作,欢迎大...
    赞 1
    评论
    浏览 328
    论文研讨
  • 南荣遥羿
    南荣遥羿 南荣遥羿 几乎是废学忘习地寝食。
    发布于2024-09-05 13:53:56

    入门强化学习的小白求助

    各位前辈们好,我目前本科软件工程二年级在读,在自学 CS285 等相关课程,有些吃力。想问问前辈们有无深度强化学习的入门经验或者学习路线的分享?! 或者近期有哪些很不错的方向值得关注和研究! 欢迎批评和指导,谢谢大家。
    赞
    评论 5
    浏览 1591
    课程学习
  • C
    C castor_v_pollux 这家伙很懒,什么都没留下
    发布于2025-03-31 02:46:47

    RLChina 论文研讨会第112期(2025.4.1直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 112 期论文研讨会将由北京大学博士生鲁云龙主持,北京大学博士生袁昊琦和北京大学本科生黄子烨为大家分享最新的研究工作...
    赞
    评论 1
    浏览 344
    论文研讨
  • pan95732
    pan95732 pan95732 pan95732
    发布于2025-03-28 15:20:07

    找线上辅导老师(pyspark、爬虫、数据库...)

    根据要求完成操作系统相关题目,也就是用英文做题, 只要你日常专业的核心课程掌握的扎实,有空闲时间那么这个线上做题就非常适合你 pyspark、爬虫、数据库、Docker、安卓、汇编、并行计算、数电逻辑、 VHDL、fpga、APP 设计、电路设计、3D 建...
    赞
    评论 1
    浏览 242
    学术活动
  • Jane
    Jane Jane 量化从业6年+/求贤若渴/不设阈值 wechat:Tangle_2013
    发布于2025-03-31 13:24:36
    各位玩家:九坤第八届量化联赛第一期 | UbiPoker AI赛开启报名! 【赛题简介】 本期比赛中,我们将带领大家挑战经典AI赛事,体验Poker AI对抗的魅力 【技能挑战】 (1)本期比赛将着重考察参赛者:AI设计能力,概率分析能力,实际问题解决能力 (2)选手需要以我们提供的程序平台为基础,可基于规则利用机器学习等方法,用自己擅长的策略开发一套AI程序,这些AI会在我们提供的平台上进行随机对抗,期待各位的表现。 【赛事激励】 Ubiquant opportunities:赛事专属面试直通卡 Ubiquant gifts:丰厚赛事奖金和奖品 Ubiquant challenge:硬核量化技术挑战 Ubiquant Conection:量化沙龙分享 本期奖项设置 冠军团队:50,000 元现金及荣誉证书 每位选手可获得 新款iPad Air11英寸 亚军团队:30,000 元现金及荣誉证书 每位选手可获得 Apple Watch Series 10 季军团队:10,000 元现金及荣誉证书 每位选手可获得 富士mini Liplay拍立得 UbiPoker特色队伍奖 - 5,000 元现金及荣誉证书 - SLOWPLAY Poker陶瓷筹码套装 点击下方链接立即报名,开启你的量化之旅。 比赛详情:https://mp.weixin.qq.com/s/ONfS_HNqX_jtvyFySQQ4sw
    赞
    评论
    浏览 385
    学科竞赛
  • 薛
    薛 薛正海-NTU 这家伙很懒,什么都没留下
    发布于2025-03-17 10:57:53

    RLChina 论文研讨会第110期 (2025.3.18直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 110 期论文研讨会将由新加坡南洋理工大学博士生李晔文和薛正海为大家分享最新的研究工作,欢迎大家参与。 互动方式:在...
    赞
    评论 1
    浏览 458
    论文研讨
公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 2024 大会(可下载课件):http://rlchina.org/rlchina_2024

三、RLChina 2023 大会(可下载课件):http://rlchina.org/rlchina_2023

四、RLChina 2022 强化学习暑期课:http://rlchina.org/topic/491

五、RLChina 2021 强化学习暑期课:http://rlchina.org/topic/9?utm_source=pocket_saves

六、RLChina 智能体挑战赛:http://rlchina.org/topic/928

七、RLChina 前沿讲习班:http://rlchina.org/topic/215

八、RLChina 论文研讨会:http://rlchina.org/topic/219

合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

签到
0
立即签到
积分排行
  • Carlos
    Carlos

    2 帖子 • 4 评论

    957
  • Frei0d
    Frei0d

    1 帖子 • 9 评论

    925
  • R
    Rlxia

    0 帖子 • 0 评论

    568
  • RLChina
    RLChina

    124 帖子 • 77 评论

    454
  • POLIXIR
    POLIXIR

    44 帖子 • 5 评论

    351
  • Rewrite
    Rewrite

    0 帖子 • 4 评论

    215
  • vinbo
    vinbo

    9 帖子 • 84 评论

    167
  • 支太行
    支太行

    17 帖子 • 34 评论

    133
  • 张海峰
    张海峰

    4 帖子 • 43 评论

    132
  • AINova
    AINova

    20 帖子 • 43 评论

    99
关于 标签 友链