RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • 米祈睿
    米祈睿 米祈睿 中科院自动化研究所2021级直博生~
    发布于2天前

    大模型社会模拟新突破:中科院团队提出MF-LLM框架,实现动态群体行为高保真模拟

    本文第一作者 米祈睿 ,中科院自动化所博士生(导师:汪军、张海峰老师),现于南洋理工大学安波教授团队访问,研究方向为群体智能体决策(LLM/RL)及基于智能体的经济仿真。 1. 大模型社会模拟的机遇与挑战 随着大语言模型(LLM)技术的快速发展,社会模拟研...
    赞 1
    评论
    浏览 895
    论文研讨
  • pan95732
    pan95732 pan95732 pan95732
    发布于10天前

    找线上辅导老师

    根据要求完成操作系统相关题目,也就是用英文做题, 只要你日常专业的核心课程掌握的扎实,有空闲时间那么这个线上做题就非常适合你 薪资:一单 200-800 不等(能力越强,报酬越高) 要求: 1.国内 985/211 院校在读或毕业,或者国外前 200 的院...
    赞
    评论 2
    浏览 63
    水区
  • C
    C castor_v_pollux 这家伙很懒,什么都没留下
    发布于6天前

    RLChina 论文研讨会第122期(2025.7.8直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 122 期论文研讨会将由北京大学博士生鲁云龙主持,北京大学博士生马允轩为大家分享最新的研究工作,欢迎大家参与。 互动...
    赞
    评论
    浏览 64
    论文研讨
  • pan95732
    pan95732 pan95732 pan95732
    发布于18天前

    招聘网上辅导老师

    薪资:一单 200-800 不等(能力越强,报酬越高) 要求: 1.国内 985/211 院校在读或毕业,或者国外前 200 的院校 2.四六级 500+/雅思 6.5+/托福 90+ 符合以上信息并且感兴趣的朋友可以添加微信详聊:XJN09888 招聘信...
    赞 1
    评论 1
    浏览 78
    招生招聘
  • S
    S spacegoing 这家伙很懒,什么都没留下
    发布于17天前

    京东探索研究院-强化学习-博士实习生 可转正-北京-HC 充足,长期有效

    【工作职责】: LLM Post Training,万卡计算资源,GPU 充足; RL 训练框架搭建; LLM RL 训练理论研究; 强化学习前沿理论研究 (Hierarchical RL, Offline RL, Maximum-entropy RL) ...
    赞
    评论
    浏览 128
    招生招聘
  • 汤
    汤 汤楠-NJU 这家伙很懒,什么都没留下
    发布于24天前

    RLChina 论文研讨会第121期 (2025.6.24直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 121 期论文研讨会将由南京大学博士生汤楠主持,南京大学硕士生王一迪、南京大学本科生杨博涵为大家分享最新的研究工作,...
    赞
    评论 1
    浏览 222
    水区
  • S
    S spacegoing 这家伙很懒,什么都没留下
    发布于23天前

    京东探索研究院-强化学习-博士实习生 可转正-北京-HC 充足,长期有效

    【工作职责】: LLM Post Training,万卡计算资源,GPU 充足; RL 训练框架搭建; LLM RL 训练理论研究; 强化学习前沿理论研究 (Hierarchical RL, Offline RL, Maximum-entropy RL) ...
    赞
    评论
    浏览 153
    招生招聘
  • 薛
    薛 薛正海-NTU 这家伙很懒,什么都没留下
    发布于26天前

    RLChina 论文研讨会第120期 (2025.6.17直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 120 期论文研讨会将由新加坡南洋理工大学博士生俸朗为大家分享最新的研究工作,欢迎大家参与。 互动方式:在本帖留言,...
    赞
    评论
    浏览 251
    水区
  • S
    S Selena 这家伙很懒,什么都没留下
    发布于2025-06-12 15:53:46

    知名新势力汽车公司求RL算法的高阶

    知名新势力汽车公司在招 RL 算法的高阶 base 北京/上海 主要 for 端到端自动驾驶的业务 感兴趣的同学,可以加我微信 nanaliu1011, 简历可以发我邮箱:selenaliu88@outlook.com
    赞
    评论
    浏览 172
    水区
  • S
    S Selena 这家伙很懒,什么都没留下
    发布于2025-06-12 14:36:05

    AI Coding Agent的创业公司招RL算法的同学

    AI Coding Agent 的创业公司招 RL 算法的同学, 工作地点:北京/上海 岗位职责 算法设计与优化: 负责设计、优化 Coding Agent 系统的核心算法和模型,不断提升 AI 自动编程的能力和效率; 大模型后训练研发: 开展大语言模型...
    赞
    评论
    浏览 186
    招生招聘
  • Z
    Z zhengrong 这家伙很懒,什么都没留下
    发布于2025-06-06 14:31:10

    RLChina 论文研讨会第119期 (2025.6.10直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由不同的研究团队轮流主持,邀请一线研究人员针对特定论文做交流分享。 第 119 期论文研讨会将由清华大学胡开哲主持,清华大学陆伊炀、上海交通大学郭凌霄为大家分享最新的研究工作,欢迎大家参与。 互动方式:在...
    赞
    评论
    浏览 273
    论文研讨
  • YanSong
    YanSong YanSong 这家伙很懒,什么都没留下
    发布于2025-05-31 03:08:31

    RLChina 论文研讨会第118期(2025.6.3直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 118 期论文研讨会将由伦敦大学学院博士生宋研主持,中国科学院自动化研究所博士生孙罗阳、 华为诺亚伦敦实验室研究科学...
    赞
    评论
    浏览 293
    论文研讨
  • Heron_7
    Heron_7 Heron_7 这家伙很懒,什么都没留下
    发布于2025-04-01 20:11:32

    零编程基础入门RL求助(请教各位大佬

    各位大佬好,我是三年级在读电子信息工程专业本科生,由于之前没有想过转码也没有什么编程方面的课程,现在的代码功底比较差。但是 Py 的基础语法我都学过一遍,但是感觉写的都不是很精。尤其是类和对象那一块,在看张伟楠老师的动手学 RL 那本书的时候发现自己可以懂...
    赞
    评论 16
    浏览 744
    课程学习
  • S
    S spacegoing 这家伙很懒,什么都没留下
    发布于2025-05-26 18:44:21

    京东探索研究院-强化学习-博士实习生 可转正-北京-HC 充足,长期有效

    【工作职责】: LLM Post Training,万卡计算资源,GPU 充足; RL 训练框架搭建; LLM RL 训练理论研究; 强化学习前沿理论研究 (Hierarchical RL, Offline RL, Maximum-entropy RL) ...
    赞
    评论
    浏览 312
    招生招聘
  • KRHKK
    KRHKK KRHKK 这家伙很懒,什么都没留下
    发布于2025-05-25 19:30:35

    RLChina 论文研讨会第117期(2025.5.27直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 117 期论文研讨会将由中科院自动化研究所博士生孙罗洋主持,中科院自动化所博士生 闫雪 和 清华大学硕士生 牛浩懿 ...
    赞
    评论
    浏览 341
    论文研讨
  • Sarah Zheng
    Sarah Zheng Sarah Zheng 热爱!微信18292838990,可随时联系~
    发布于2025-05-20 11:27:49

    网易游戏互娱 | 人工智能实验室招聘AI研究(RL方向)暑期实习生(可转正)

    ## Ai Lab 介绍 网易互娱 AI Lab 成立于 2017 年,是专注于游戏领域的人工智能实验室。我们致力于计算机视觉、自然语言处理和游戏 AI 等游戏场景下的 AI 相关应用落地研究,旨在通过 AI 技术助力网易互娱旗下热门游戏及产品的技术升级,...
    赞 1
    评论
    浏览 300
    招生招聘
  • Z
    Z Zhengbang Zhu 这家伙很懒,什么都没留下
    发布于2025-05-14 18:25:38

    RLChina 论文研讨会第116期(2025.5.20直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 116 期论文研讨会将由上海交通大学博士生竺正邦主持,上海交通大学博士生陈竞潇和上海交通大学本科生韩潇申为大家分享最...
    赞
    评论
    浏览 270
    论文研讨
  • H
    H harry 这家伙很懒,什么都没留下
    发布于2025-05-10 11:23:02

    RLChina 论文研讨会第115期(2025.5.13直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 115 期论文研讨会将由中国科学技术大学博士生宋昊霖主持, 中国科学技术大学博士生耿子介、王泓为大家分享最新的研究工...
    赞
    评论
    浏览 287
    论文研讨
  • W
    W wanghz123 这家伙很懒,什么都没留下
    发布于2025-05-06 17:59:16

    离线强化学习loss和收益的关系

    目前在用离线强化学习算法 cql 做项目,缺少实际测试环境来验证策略,那么怎么根据模型的 critic loss 和 actor loss 判断模型是否收敛呢? 目前发现 actor loss 在上升,但是通过对输出动作分析,发现还是学到了一些对的策略,但...
    赞
    评论
    浏览 255
    水区
  • cchenmy111
    cchenmy111 cchenmy111 这家伙很懒,什么都没留下
    发布于2025-04-23 23:43:15

    多智能体强化学习求助!

    训练效果很好,奖励看着也收敛,最后的智能体表现在训练结束前的 100 个 episode 表现都不错,为什么最后保存下来的模型加载评估的时候效果大打折扣?已经开启了。eval(),然后评估时为了看智能体学习的程度,我没有更换评估的环境,仍然是之前训练的环境...
    赞
    评论 10
    浏览 338
    水区
公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 2024 大会(可下载课件):http://rlchina.org/rlchina_2024

三、RLChina 2023 大会(可下载课件):http://rlchina.org/rlchina_2023

四、RLChina 2022 强化学习暑期课:http://rlchina.org/topic/491

五、RLChina 2021 强化学习暑期课:http://rlchina.org/topic/9?utm_source=pocket_saves

六、RLChina 智能体挑战赛:http://rlchina.org/topic/928

七、RLChina 前沿讲习班:http://rlchina.org/topic/215

八、RLChina 论文研讨会:http://rlchina.org/topic/219

合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

签到
0
立即签到
积分排行
  • Carlos
    Carlos

    2 帖子 • 4 评论

    957
  • Frei0d
    Frei0d

    1 帖子 • 9 评论

    954
  • R
    Rlxia

    0 帖子 • 0 评论

    568
  • RLChina
    RLChina

    124 帖子 • 77 评论

    454
  • POLIXIR
    POLIXIR

    44 帖子 • 5 评论

    351
  • Rewrite
    Rewrite

    0 帖子 • 4 评论

    215
  • vinbo
    vinbo

    9 帖子 • 84 评论

    167
  • 支太行
    支太行

    17 帖子 • 34 评论

    133
  • 张海峰
    张海峰

    4 帖子 • 43 评论

    132
  • AINova
    AINova

    20 帖子 • 43 评论

    99
关于 标签 友链