RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • pan95732
    pan95732 pan95732 pan95732
    发布于23天前

    找线上辅导老师

    根据要求完成操作系统相关题目,也就是用英文做题, 只要你日常专业的核心课程掌握的扎实,有空闲时间那么这个线上做题就非常适合你 薪资:一单 200-800 不等(能力越强,报酬越高) 要求: 1.国内 985/211 院校在读或毕业,或者国外前 200 的院...
    赞
    评论 4
    浏览 116
    水区
  • Felicia
    Felicia Felicia 具身智能+大模型 创业公司HR, 前AI资深猎头,有7年招聘经验 微信:490618139 我司招聘强化学习+运动控制、多模态大模型等等人才
    发布于11天前
    大家好,我是具身智能创业公司的HR Felicia,我司聚焦于“通用具身大模型”的研发,是国内最早实现端到端统一具身大模型的公司,过去一年融资7轮。公司非常重视研发,博士占比高,做事风格比较低调踏实,很早就搭建了自己的数采团队,用真实数据去训练算法。 我们在寻找强化学习运用在运动控制方面的优秀人才或者强化学习运用在大模型训练方向,实习或者全职都可以,从实习生到资深工程师我们都在招,最好是硕士或以上学历,地点在深圳。感兴趣的同学可以直接联系我,微信:490618139 可参考职位描述: 运动控制-RL 职位描述 负责机器人领域的强化学习算法研究与开发,包括机械臂、灵巧手、机器人全身运动控制等核心技能训练; 熟悉机器人端到端操作模型,研究强化学习在ACT、Diffusion Policy、OpenVLA等前沿VLA模型中的应用; 基于Isaac Gym/Sim/Lab、MuJoCo等仿真平台,设计并实现机器人操作策略的强化学习训练框架,解决sim2real迁移问题; 研究操作模型基于人类或者模型反馈的真机强化学习,提升模型的泛化性和精准性,进一步提升模型的能力; 研究并开发模仿学习与强化学习相结合的算法,实现机器人复杂操作技能的快速学习和泛化; 负责强化学习模型的蒸馏、优化和真机部署,确保算法在实际机器人系统中的稳定运行; 跟踪机器人强化学习领域最新研究进展,推动算法创新和技术突破。 职位要求 具有计算机视觉、人工智能、机器人学、控制工程等相关专业背景,硕士及以上学历; 熟练掌握主流深度学习框架,如PyTorch、TensorFlow、JAX,并具备优秀的编程能力; 具备扎实的强化学习理论基础,熟悉PPO、SAC、TD3、DDPG等主流强化学习算法,有相关项目实践经验; 有Isaac Gym/Sim/Lab、MuJoCo等机器人仿真平台使用经验,具备sim2real项目开发经验; 了解机器人运动学、动力学建模,熟悉机器人操作(manipulation)或运动控制相关技术; 了解机器人端到端操作模型(如ACT、Diffusion Policy、OpenVLA、π0等)及大模型在机器人领域的应用; 有机械臂+灵巧手或足式机器人的强化学习/模仿学习项目经验者优先; 具备分布式训练经验,能够处理大规模数据和模型训练,有过强化学习系统框架开发者优先; 机器人学习、强化学习相关顶级会议论文发表经历或相关比赛获奖经历者优先考虑; 具有技术热情、技术信仰以及较强的学习能力和问题解决能力。
    赞
    评论
    浏览 507
    水区
  • Felicia
    Felicia Felicia 具身智能+大模型 创业公司HR, 前AI资深猎头,有7年招聘经验 微信:490618139 我司招聘强化学习+运动控制、多模态大模型等等人才
    发布于11天前

    具身智能明星创业公司-强化学习招人-实习/全职都可-深圳

    大家好,我是具身智能创业公司的 HR Felicia,我司聚焦于“通用具身大模型”的研发,是国内最早实现端到端统一具身大模型的公司,过去一年融资 7 轮。公司非常重视研发,博士占比高,做事风格比较低调踏实,很早就搭建了自己的数采团队,用真实数据去训练算法。...
    赞
    评论
    浏览 261
    水区
  • S
    S Selena 这家伙很懒,什么都没留下
    发布于2025-06-12 15:53:46

    知名新势力汽车公司求RL算法的高阶

    知名新势力汽车公司在招 RL 算法的高阶 base 北京/上海 主要 for 端到端自动驾驶的业务 感兴趣的同学,可以加我微信 nanaliu1011, 简历可以发我邮箱:selenaliu88@outlook.com
    赞
    评论
    浏览 201
    水区
  • W
    W wanghz123 这家伙很懒,什么都没留下
    发布于2025-05-06 17:59:16

    离线强化学习loss和收益的关系

    目前在用离线强化学习算法 cql 做项目,缺少实际测试环境来验证策略,那么怎么根据模型的 critic loss 和 actor loss 判断模型是否收敛呢? 目前发现 actor loss 在上升,但是通过对输出动作分析,发现还是学到了一些对的策略,但...
    赞
    评论
    浏览 272
    水区
  • cchenmy111
    cchenmy111 cchenmy111 这家伙很懒,什么都没留下
    发布于2025-04-23 23:43:15

    多智能体强化学习求助!

    训练效果很好,奖励看着也收敛,最后的智能体表现在训练结束前的 100 个 episode 表现都不错,为什么最后保存下来的模型加载评估的时候效果大打折扣?已经开启了。eval(),然后评估时为了看智能体学习的程度,我没有更换评估的环境,仍然是之前训练的环境...
    赞
    评论 10
    浏览 354
    水区
  • dashang001
    dashang001 dashang001 这家伙很懒,什么都没留下
    发布于2025-04-22 18:21:05
    123123
    赞
    评论
    浏览 266
    水区
  • 星
    星 星空713 这家伙很懒,什么都没留下
    发布于2025-03-05 17:03:31

    上海算法创新研究院:推理大模型算法实习生招聘(强化方向)

    【简介】我们是上海算法创新研究院的大模型团队,成员来自于普林斯顿大学、卡内基梅隆大学、北京大学、上海交通大学、浙江大学、中科院等国内外知名高校和阿里、华为、美团等知名企业,具有丰富的研究和实践经验。我们致力于探索创建行业领先的大模型,为行业共性需求提供解决...
    赞
    评论
    浏览 494
    水区
  • Willing Star
    Willing Star Willing Star 这家伙很懒,什么都没留下
    发布于2025-03-02 17:49:20

    UCL强化学习派:汪军与他的学生们

    拜读了文章 UCL 强化学习派:汪军与他的学生们,都是 RLC 课程上课的老师,亲切又敬佩。
    赞 2
    评论
    浏览 486
    水区
  • B
    B BrandonLiu 这家伙很懒,什么都没留下
    发布于2024-12-31 02:20:20

    NeurIPS 2024 | DACER:扩散模型与在线强化学习强强联合创造新SOTA!

    本文介绍清华大学智能驾驶课题组(iDLab)在 NeurIPS 2024 发表的最新研究成果《Diffusion Actor-Critic with Entropy Regulator》。该算法创新性地将扩散模型的反向过程作为策略函数,使在线强化学习算法能...
    赞 1
    评论
    浏览 764
    水区
  • R
    R rlchina-baishi 这家伙很懒,什么都没留下
    发布于2024-07-16 10:02:13

    多智能体训练中,qmix、vdn发散而ippo缓慢收敛

    代码使用的是 pymarl,环境是 cityflow,评价指标是 average travel time(越小越好),可见 ippo 的评价指标缓慢变小,qmix、vdn 直接发散了。 导致发散的可能原因是什么呢? ippo 收敛慢又是什么原因呢? i...
    赞
    评论 3
    浏览 857
    水区
  • cloudpetticoats
    cloudpetticoats cloudpetticoats cs在读研究生
    发布于2024-11-28 22:39:45

    DQN求解优化问题总收敛到边界值?

    大佬们,我正在用 GAT+DQN 求解一个离散优化问题,action 是 n 维的二进制变量(n 会变化,所以用 GAT),优化目标设定为一个正的即时奖励,还有两个约束,不满足约束会给一个大的负奖励,用 epsilong-greedy 随机探索二进制变量。...
    赞
    评论
    浏览 356
    水区
  • B
    B buaacaver 这家伙很懒,什么都没留下
    发布于2024-11-26 09:53:36

    rlchina2024的多智能体合作与博弈专题视频回放在哪里看呢

    找了官网和 b 站里的多智能体合作与博弈视频但是没找到,想问一下是后续会继续传到 b 站里吗?还是后面也不会再传了呀
    赞
    评论
    浏览 342
    水区
  • 坤
    坤 坤坤@ubiquant 这家伙很懒,什么都没留下
    发布于2024-11-04 14:48:36

    【九坤投资】量化新星挑战赛|字符猎手挑战赛 报名倒计时7天

    亲爱的同学们:九坤第七届量化联赛第二期 | 字符猎手挑战赛正在火热报名中~报名倒计时7天!诚邀各位加入挑战!!! 【赛题简介】 本期赛题需要选手在字符识别的基础上按照规则完成消除游戏,得分高者即可胜出。比赛设总榜以及两个子榜单,子榜分别关注识别准确率和策略...
    赞 1
    评论
    浏览 470
    水区
  • J
    J jjx 这家伙很懒,什么都没留下
    发布于2024-10-22 14:03:53

    MADDPG

    GitHub 上开源的关于 maddpg 的代码环境都很老,配置一直错误怎么办? 这是 openai 开源的代码:https://github.com/openai/maddpg 这是环境依赖:Known dependencies: Python (3.5...
    赞
    评论 1
    浏览 441
    水区
  • Jane
    Jane Jane 量化从业6年+/求贤若渴/不设阈值 wechat:Tangle_2013
    发布于2024-10-22 20:34:20

    【九坤投资】量化新星挑战赛|字符猎手挑战赛 报名邀请函

    亲爱的同学们:九坤第七届量化联赛第二期 | 字符猎手挑战赛正式开启报名! 【赛题简介】 本期赛题目标是让选手在交互式的游戏环境中,设计模型与游戏策略,确保模型能够准确识别游戏画面中的每个格子的字符类型,并合理执行动作,使得智能体获得游戏高分。本期比赛将着重...
    赞 1
    评论
    浏览 579
    水区
  • Error_666
    Error_666 Error_666 Work hard, be nice.
    发布于2024-10-07 22:39:11

    TD时序差分算法的off-policy version的疑问

    目前对 off-policy 的理解是,生成 experience 数据的 policy 与优化出的 policy 不同。 那么如果是这样的话,与 on-policy 相比,感觉很难得到真正的最优 policy,因为它是在生成 experience 数据的...
    赞
    评论 2
    浏览 561
    水区
  • 九
    九 九章二节 这家伙很懒,什么都没留下
    发布于2024-04-28 19:32:21

    平台有考虑加个搜索功能吗?

    翻旧贴很不方便
    赞 4
    评论 4
    浏览 1200
    水区
  • 白辰甲(TeleAI)
    白辰甲(TeleAI) 白辰甲(TeleAI) 强化学习
    发布于2024-08-19 14:59:20

    具身智能实习生招聘(上海)

    白辰甲课题组招收具身智能/强化学习方向实习生 职责:进行相关科研工作,发表高水平国际学术论文。具体方向包括: 强化学习方向,包含离线学习、多智能体学习、探索和表征、安全强化学习、偏好学习、迁移和泛化等主题。 决策大模型,包括 LLM 规划,世界模型学习,多...
    赞 1
    评论
    浏览 1010
    水区
  • T
    T TJU-NF 这家伙很懒,什么都没留下
    发布于2024-08-05 09:31:44

    RLChina 论文研讨会第96期(2024.8.06直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 96 期论文研讨会将由天津大学博士生倪飞主持,天津大学硕士生陈逸彬、天津大学博士生刘金毅和天津大学博士生李鹏翼为大家...
    赞
    评论 2
    浏览 1016
    水区
公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 2024 大会(可下载课件):http://rlchina.org/rlchina_2024

三、RLChina 2023 大会(可下载课件):http://rlchina.org/rlchina_2023

四、RLChina 2022 强化学习暑期课:http://rlchina.org/topic/491

五、RLChina 2021 强化学习暑期课:http://rlchina.org/topic/9?utm_source=pocket_saves

六、RLChina 智能体挑战赛:http://rlchina.org/topic/928

七、RLChina 前沿讲习班:http://rlchina.org/topic/215

八、RLChina 论文研讨会:http://rlchina.org/topic/219

合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

签到
0
立即签到
积分排行
  • Frei0d
    Frei0d

    1 帖子 • 9 评论

    965
  • Carlos
    Carlos

    2 帖子 • 4 评论

    957
  • R
    Rlxia

    0 帖子 • 0 评论

    568
  • RLChina
    RLChina

    124 帖子 • 77 评论

    454
  • POLIXIR
    POLIXIR

    44 帖子 • 5 评论

    351
  • Rewrite
    Rewrite

    0 帖子 • 4 评论

    215
  • vinbo
    vinbo

    9 帖子 • 84 评论

    167
  • 支太行
    支太行

    17 帖子 • 34 评论

    133
  • 张海峰
    张海峰

    4 帖子 • 43 评论

    132
  • AINova
    AINova

    20 帖子 • 43 评论

    99
关于 标签 友链