RLChina 强化学习社区

米祈睿中科院自动化研究所2021级直博生~

发布于4天前

大模型社会模拟新突破：中科院团队提出MF-LLM框架，实现动态群体行为高保真模拟
本文第一作者米祈睿，中科院自动化所博士生（导师：汪军、张海峰老师），现于南洋理工大学安波教授团队访问，研究方向为群体智能体决策（LLM/RL）及基于智能体的经济仿真。 1. 大模型社会模拟的机遇与挑战随着大语言模型（LLM）技术的快速发展，社会模拟研...

赞 3

评论

浏览 1176

论文研讨
pan95732 pan95732

发布于11天前

找线上辅导老师
根据要求完成操作系统相关题目，也就是用英文做题，只要你日常专业的核心课程掌握的扎实，有空闲时间那么这个线上做题就非常适合你薪资：一单 200-800 不等(能力越强，报酬越高) 要求： 1.国内 985/211 院校在读或毕业，或者国外前 200 的院...

赞

评论 2

浏览 66

水区
C

C castor_v_pollux 这家伙很懒，什么都没留下

发布于8天前

RLChina 论文研讨会第122期（2025.7.8直播）
导读论文研讨会是 RLChina 举办的学术活动，由 RL 领域不同研究团队轮流担任主持人，邀请一线研究人员针对特定论文做交流分享。第 122 期论文研讨会将由北京大学博士生鲁云龙主持，北京大学博士生马允轩为大家分享最新的研究工作，欢迎大家参与。互动...

赞

评论

浏览 77

论文研讨
pan95732 pan95732

发布于19天前

招聘网上辅导老师
薪资：一单 200-800 不等(能力越强，报酬越高) 要求： 1.国内 985/211 院校在读或毕业，或者国外前 200 的院校 2.四六级 500+/雅思 6.5+/托福 90+ 符合以上信息并且感兴趣的朋友可以添加微信详聊：XJN09888 招聘信...

赞 1

评论 1

浏览 81

招生招聘
S

S spacegoing 这家伙很懒，什么都没留下

发布于19天前

京东探索研究院-强化学习-博士实习生可转正-北京-HC 充足，长期有效
【工作职责】： LLM Post Training，万卡计算资源，GPU 充足； RL 训练框架搭建； LLM RL 训练理论研究；强化学习前沿理论研究 (Hierarchical RL, Offline RL, Maximum-entropy RL) ...

赞

评论

浏览 129

招生招聘
汤

汤汤楠-NJU 这家伙很懒，什么都没留下

发布于25天前

RLChina 论文研讨会第121期（2025.6.24直播）
导读论文研讨会是 RLChina 举办的学术活动，由 RL 领域不同研究团队轮流担任主持人，邀请一线研究人员针对特定论文做交流分享。第 121 期论文研讨会将由南京大学博士生汤楠主持，南京大学硕士生王一迪、南京大学本科生杨博涵为大家分享最新的研究工作，...

赞

评论 1

浏览 225

水区
S

S spacegoing 这家伙很懒，什么都没留下

发布于25天前

京东探索研究院-强化学习-博士实习生可转正-北京-HC 充足，长期有效
【工作职责】： LLM Post Training，万卡计算资源，GPU 充足； RL 训练框架搭建； LLM RL 训练理论研究；强化学习前沿理论研究 (Hierarchical RL, Offline RL, Maximum-entropy RL) ...

赞

评论

浏览 161

招生招聘
薛

薛薛正海-NTU 这家伙很懒，什么都没留下

发布于28天前

RLChina 论文研讨会第120期（2025.6.17直播）
导读论文研讨会是 RLChina 举办的学术活动，由 RL 领域不同研究团队轮流担任主持人，邀请一线研究人员针对特定论文做交流分享。第 120 期论文研讨会将由新加坡南洋理工大学博士生俸朗为大家分享最新的研究工作，欢迎大家参与。互动方式：在本帖留言，...

赞

评论

浏览 252

水区
S

S Selena 这家伙很懒，什么都没留下

发布于2025-06-12 15:53:46

知名新势力汽车公司求RL算法的高阶
知名新势力汽车公司在招 RL 算法的高阶 base 北京/上海主要 for 端到端自动驾驶的业务感兴趣的同学，可以加我微信 nanaliu1011，简历可以发我邮箱：selenaliu88@outlook.com

赞

评论

浏览 178

水区
S

S Selena 这家伙很懒，什么都没留下

发布于2025-06-12 14:36:05

AI Coding Agent的创业公司招RL算法的同学
AI Coding Agent 的创业公司招 RL 算法的同学，工作地点：北京/上海岗位职责算法设计与优化：负责设计、优化 Coding Agent 系统的核心算法和模型，不断提升 AI 自动编程的能力和效率；大模型后训练研发：开展大语言模型...

赞

评论

浏览 188

招生招聘
Z

Z zhengrong 这家伙很懒，什么都没留下

发布于2025-06-06 14:31:10

RLChina 论文研讨会第119期（2025.6.10直播）
导读论文研讨会是 RLChina 举办的学术活动，由不同的研究团队轮流主持，邀请一线研究人员针对特定论文做交流分享。第 119 期论文研讨会将由清华大学胡开哲主持，清华大学陆伊炀、上海交通大学郭凌霄为大家分享最新的研究工作，欢迎大家参与。互动方式：在...

赞

评论

浏览 277

论文研讨
YanSong 这家伙很懒，什么都没留下

发布于2025-05-31 03:08:31

RLChina 论文研讨会第118期（2025.6.3直播）
导读论文研讨会是 RLChina 举办的学术活动，由 RL 领域不同研究团队轮流担任主持人，邀请一线研究人员针对特定论文做交流分享。第 118 期论文研讨会将由伦敦大学学院博士生宋研主持，中国科学院自动化研究所博士生孙罗阳、华为诺亚伦敦实验室研究科学...

赞

评论

浏览 293

论文研讨
Heron_7 这家伙很懒，什么都没留下

发布于2025-04-01 20:11:32

零编程基础入门RL求助（请教各位大佬
各位大佬好，我是三年级在读电子信息工程专业本科生，由于之前没有想过转码也没有什么编程方面的课程，现在的代码功底比较差。但是 Py 的基础语法我都学过一遍，但是感觉写的都不是很精。尤其是类和对象那一块，在看张伟楠老师的动手学 RL 那本书的时候发现自己可以懂...

赞

评论 16

浏览 747

课程学习
S

S spacegoing 这家伙很懒，什么都没留下

发布于2025-05-26 18:44:21

京东探索研究院-强化学习-博士实习生可转正-北京-HC 充足，长期有效
【工作职责】： LLM Post Training，万卡计算资源，GPU 充足； RL 训练框架搭建； LLM RL 训练理论研究；强化学习前沿理论研究 (Hierarchical RL, Offline RL, Maximum-entropy RL) ...

赞

评论

浏览 315

招生招聘
KRHKK 这家伙很懒，什么都没留下

发布于2025-05-25 19:30:35

RLChina 论文研讨会第117期（2025.5.27直播）
导读论文研讨会是 RLChina 举办的学术活动，由 RL 领域不同研究团队轮流担任主持人，邀请一线研究人员针对特定论文做交流分享。第 117 期论文研讨会将由中科院自动化研究所博士生孙罗洋主持，中科院自动化所博士生闫雪和清华大学硕士生牛浩懿 ...

赞

评论

浏览 344

论文研讨
Sarah Zheng 热爱！微信18292838990，可随时联系~

发布于2025-05-20 11:27:49

网易游戏互娱 | 人工智能实验室招聘AI研究（RL方向）暑期实习生（可转正）
## Ai Lab 介绍网易互娱 AI Lab 成立于 2017 年，是专注于游戏领域的人工智能实验室。我们致力于计算机视觉、自然语言处理和游戏 AI 等游戏场景下的 AI 相关应用落地研究，旨在通过 AI 技术助力网易互娱旗下热门游戏及产品的技术升级，...

赞 1

评论

浏览 304

招生招聘
Z

Z Zhengbang Zhu 这家伙很懒，什么都没留下

发布于2025-05-14 18:25:38

RLChina 论文研讨会第116期（2025.5.20直播）
导读论文研讨会是 RLChina 举办的学术活动，由 RL 领域不同研究团队轮流担任主持人，邀请一线研究人员针对特定论文做交流分享。第 116 期论文研讨会将由上海交通大学博士生竺正邦主持，上海交通大学博士生陈竞潇和上海交通大学本科生韩潇申为大家分享最...

赞

评论

浏览 274

论文研讨
H

H harry 这家伙很懒，什么都没留下

发布于2025-05-10 11:23:02

RLChina 论文研讨会第115期（2025.5.13直播）
导读论文研讨会是 RLChina 举办的学术活动，由 RL 领域不同研究团队轮流担任主持人，邀请一线研究人员针对特定论文做交流分享。第 115 期论文研讨会将由中国科学技术大学博士生宋昊霖主持，中国科学技术大学博士生耿子介、王泓为大家分享最新的研究工...

赞

评论

浏览 290

论文研讨
W

W wanghz123 这家伙很懒，什么都没留下

发布于2025-05-06 17:59:16

离线强化学习loss和收益的关系
目前在用离线强化学习算法 cql 做项目，缺少实际测试环境来验证策略，那么怎么根据模型的 critic loss 和 actor loss 判断模型是否收敛呢？目前发现 actor loss 在上升，但是通过对输出动作分析，发现还是学到了一些对的策略，但...

赞

评论

浏览 256

水区
cchenmy111 这家伙很懒，什么都没留下

发布于2025-04-23 23:43:15

多智能体强化学习求助！
训练效果很好，奖励看着也收敛，最后的智能体表现在训练结束前的 100 个 episode 表现都不错，为什么最后保存下来的模型加载评估的时候效果大打折扣？已经开启了。eval()，然后评估时为了看智能体学习的程度，我没有更换评估的环境，仍然是之前训练的环境...

赞

评论 10

浏览 341

水区

首次进入社区的小伙伴，欢迎了解以下事项，参与相关活动：

一、RLChina 组织形式：http://rlchina.org/topic/211

二、RLChina 2024 大会（可下载课件）：http://rlchina.org/rlchina_2024

三、RLChina 2023 大会（可下载课件）：http://rlchina.org/rlchina_2023

四、RLChina 2022 强化学习暑期课：http://rlchina.org/topic/491

五、RLChina 2021 强化学习暑期课：http://rlchina.org/topic/9?utm_source=pocket_saves

六、RLChina 智能体挑战赛：http://rlchina.org/topic/928

七、RLChina 前沿讲习班：http://rlchina.org/topic/215

八、RLChina 论文研讨会：http://rlchina.org/topic/219

Carlos
2 帖子 • 4 评论

957
Frei0d
1 帖子 • 9 评论

955
R
Rlxia
0 帖子 • 0 评论

568
RLChina
124 帖子 • 77 评论

454
POLIXIR
44 帖子 • 5 评论

351
Rewrite
0 帖子 • 4 评论

215
vinbo
9 帖子 • 84 评论

167
支太行
17 帖子 • 34 评论

133
张海峰
4 帖子 • 43 评论

132
AINova
20 帖子 • 43 评论

99