RLChina 强化学习社区

RLChina 强化学习社区

  • 发动态
  • 发帖子
登录/注册
首页
话题
  • 发动态
  • 发帖子
消息
登录/注册
最新
推荐
  • 最新
  • 推荐
  • 关注
  • 论文研讨
  • 课程学习
  • 学科竞赛
  • 新闻动态
  • 学术活动
  • 经验分享
  • 产业应用
  • 实用工具
  • 招生招聘
  • 水区
  • 水区
  • 反馈
热门标签
离线强化学习 多智能体强化学习
  • 米祈睿
    米祈睿 米祈睿 中科院自动化研究所2021级直博生~
    发布于2022-08-08 16:21:39

    论文笔记 | In situ bidirectional human-robot value alignment 实时双向人机价值对齐

    Value Alignment Problem 导言 本文简述了 value alignment problem 的定义与提出背景,记录了学习论文“In situ bidirectional human-robot value alignment”时的笔记...
    赞 6
    评论 4
    浏览 1385
    论文研讨
  • QY
    QY QY 这家伙很懒,什么都没留下
    发布于2天前

    招聘Excel数据分析专业精英,自由兼职、待遇优厚

    要求: 1.擅长 统计学、编程能力、数据库、数据仓库、数据分析方法、数据分析工具(python、SQL、R 语言,spss,Excel)(擅长其中一项即可) 2. 工作说明:我们每天都有在线发布任务,先到先得,薪酬视具体难度来定,待遇优厚、时间自由、地点自...
    赞
    评论
    浏览 13
    水区
  • Jane
    Jane Jane 量化从业6年+/求贤若渴/不设阈值 wechat:Tangle_2013
    发布于3天前

    九坤投资量化校招岗开放中

    九坤投资成立于 2012 年,是国内头部量化私募公司。现 2024 年校园招聘进行中,面向全球优秀的本硕博应届毕业生,加入“梧桐计划”。该计划是自 2020 年九坤首次推出针对最牛应届生的极客人才培养计划,真诚的邀请您与我们最优秀的“科学家”共探数据黑森林...
    赞
    评论
    浏览 29
    招生招聘
  • F
    F Fox 这家伙很懒,什么都没留下
    发布于27天前

    奖励设置问题

    环境是一个图网络,其中,规定了起点、终点和最大行驶距离(路径的权重和)。现在每条边上都有一个信息量可收集,我们期望在已有约束下最大化信息量收集。 目前的做法是 将下一个动作获取的信息量(即下一步走过的边上的信息量)作为奖励。 现在在训练中发现,由于所有合法...
    赞 2
    评论 2
    浏览 145
    水区
  • myb
    myb myb 入坑没多久,求大神指导一二
    发布于6天前

    SMAC环境突然显存不够

    同样的代码在运行 SMAC 的环境的时候,corridor 和 2c_64z 从开始的占 4G 显存到后来会占用越来越多直到显示我 24G 的显存不够,这是什么原因,其他的地图都没有这个问题,是因为我下载的地图有问题吗,海事这两个地图就是这个样子
    赞 1
    评论
    浏览 29
    论文研讨
  • 马亿
    马亿 马亿 这家伙很懒,什么都没留下
    发布于6天前

    RLChina 论文研讨会第63期(2023.09.26直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 63 期论文研讨会将由天津大学博士生马亿主持,天津大学博士生李鹏翼和北京理工大学博士生赵一诺为大家分享最新的研究工作...
    赞
    评论
    浏览 131
    论文研讨
  • QY
    QY QY 这家伙很懒,什么都没留下
    发布于6天前

    招募【兼职】Excel/SPSS数据分析专业相关人员

    老师、同学们大家好,本公司通过互联网招募留学生作业答疑老师,长期招聘数据分析专业相关人员。 要求: 1.擅长统计学、编程能力、数据库、数据仓库、数据分析方法、数据分析工具 python、SQL、R 语言,spss,Excel(擅长其中一项即可) 2.985...
    赞
    评论
    浏览 22
    水区
  • S
    S spacegoing 这家伙很懒,什么都没留下
    发布于10天前

    京东探索研究院-强化学习-博士实习生-北京-长期有效

    【工作职责】: 强化学习前沿理论研究 (Hierarchical RL, Offline RL, Maximum-entropy RL) 【任职要求】: 博士在读,熟练的英文文献研究能力 *面试必备* 有坚实的RL理论基础(Sutton 2018...
    赞
    评论
    浏览 137
    招生招聘
  • Jamie
    Jamie Jamie 英诺天使基金VP,关注RL+Robotics
    发布于12天前

    AI+Roboitcs 华人图谱

    上一篇文章盘点足式机器人的几个山头着重梳理了足式机器人领域做机器人本体和控制比较强的团队,我们称为机器人派。这篇文章,我们会着重梳理机器人领域里的 AI 派,尤其是用强化学习(Reinforcement Learning)、深度强化学习(Deep Rein...
    赞
    评论
    浏览 82
    水区
  • pan95732
    pan95732 pan95732 这家伙很懒,什么都没留下
    发布于15天前

    学霸们,无论你在职还是在读欢迎你的加入!

    【介绍】 我们是一家专注于为大学生群体提供课后习题答疑的教育机构,采用网络 1 对 1 的答疑形式。在这里,我们能提供不同难度的习题辅导的机会。只要您有电脑,学习成绩优秀,在空闲时解题,然后用文字 or 文档的形式给学生答疑解惑即可。 【时间】 我们是灵活...
    赞
    评论
    浏览 64
    招生招聘
  • 赵祉瑜+中科院自动化所
    赵祉瑜+中科院自动化所 赵祉瑜+中科院自动化所 本科北京理工大学,中科院自动化所硕士
    发布于16天前

    前沿追踪 | 强化学习月度十大动态 2308 期:利用强化学习构建语言智能体,微软通过RLEIF提高LLM数学能力等

    导读 本推文整理了 2023 年 8 月强化学习十大学术动态,涵盖强化学习相关领域的论文、会议、教程、观点等内容,全面覆盖 RL theory,multi-agent RL,imitation RL,offline RL,Hierarchical RL,R...
    赞 1
    评论
    浏览 235
    新闻动态
  • myb
    myb myb 入坑没多久,求大神指导一二
    发布于16天前

    新手提问:loss一直在下降,但是reward没有上升,而且平均回报也没有增加

    只是改了一篇论文的 actor 网络,然后运行 SMAC 出来的结果显示,loss 一直在减小, 但是结果却是一直没有赢,用的环境参数都是一样的,是什么原因导致的,求大神指导
    赞
    评论
    浏览 99
    水区
  • QY
    QY QY 这家伙很懒,什么都没留下
    发布于17天前

    招募【兼职】统计数据分析专业相关人员

    老师、同学们大家好,本公司通过互联网招募留学生作业答疑老师,长期招聘统计专业相关人员。 要求: 1.擅长基本思想、贝叶斯,数学理论、概率论、统计调查、参数估计与假设检验、非参数方法、回归分析、多元统计方法、随机过程、时间序列分析、试验设计和统计软件、数学统...
    赞
    评论
    浏览 47
    水区
  • 薛
    薛 薛正海-NTU 这家伙很懒,什么都没留下
    发布于21天前

    RLChina 论文研讨会第62期 (2023.9.12直播)

    导读 论文研讨会是 RLChina 举办的学术活动,由 RL 领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第 62 期论文研讨会将由新加坡南洋理工大学博士生薛正海主持,新加坡南洋理工大学博士生郑龙韬、南京大学硕士生林浩鑫、伦敦...
    赞
    评论
    浏览 232
    论文研讨
  • QY
    QY QY 这家伙很懒,什么都没留下
    发布于21天前

    程序设计工作室兼职招聘(本招聘长期有效,无需坐班)

    Matlab/FPGA/Java/Python/Fortran/VB/DSP/PHP/C 程序设计工作室 ,拥有 985 高校硕士博士专业团队,实力雄厚,精英云集。如果你敢挑战,欢迎加入我们团队,这里项目众多,每天都有不同专业的任务。你既能得到锻炼又有薪资...
    赞
    评论
    浏览 71
    水区
  • QY
    QY QY 这家伙很懒,什么都没留下
    发布于23天前

    【招聘】兼职 软件工程专业精英,自由兼职、待遇优厚

    任职要求: 1.擅长 模拟电子技术、数字逻辑、微机原理、汇编语言、高等数学、线性代数、概率论与数理统计、离散数学、操作系统原理、编译原理、算法与数据结构、面向对象方法、数据库、深度学习、人工智能、安卓、软件工程、计算机网络、机器学习、数据挖掘、自然语言处理...
    赞
    评论
    浏览 44
    水区
  • pan95732
    pan95732 pan95732 这家伙很懒,什么都没留下
    发布于25天前

    【兼职】专业不限,只要你本专业知识扎实即可胜任!

    【介绍】 我们是一家专注于为大学生群体提供课后习题答疑的教育机构,采用网络 1 对 1 的答疑形式。在这里,我们能提供不同难度的习题辅导的机会。只要您有电脑,学习成绩优秀,在空闲时解题,然后用文字 or 文档的形式给学生答疑解惑即可。 【时间】 我们是灵活...
    赞
    评论
    浏览 60
    招生招聘
  • Ka1eidoscope
    Ka1eidoscope Ka1eidoscope 这家伙很懒,什么都没留下
    发布于28天前

    华南理工大学计算机学院陈敏教授团队2024级研究生招生

    【华南理工大学计算机学院嵌入与普适计算实验室简介】 华南理工大学是国家教育部直属重点综合性大学,是国家“211 工程”重点建设和“985 工程”建设高校之一,是首批“双一流”建设高校。 “嵌入与普适计算实验室”由陈敏教授于 2012 年建立,现有 IEEE...
    赞
    评论 1
    浏览 262
    招生招聘
  • QY
    QY QY 这家伙很懒,什么都没留下
    发布于29天前

    【兼职】【招聘】软件工程相关人员

    要求: 1.985/211 大三以上 2.英语四级 500 以上 3.擅长 模拟电子技术、数字逻辑、微机原理、汇编语言、高等数学、线性代数、概率论与数理统计、离散数学、操作系统原理、编译原理、算法与数据结构、面向对象方法、数据库、深度学习、人工智能、安卓、...
    赞
    评论
    浏览 67
    水区
  • QY
    QY QY 这家伙很懒,什么都没留下
    发布于2023-08-29 10:22:07

    招募【兼职】软件工程相关人员

    老师、同学们大家好,本公司通过互联网招募留学生作业答疑老师,长期招聘软件工程相关人员。 要求: 1.擅长模拟电子技术、数字逻辑、微机原理、汇编语言、高等数学、线性代数、概率论与数理统计、离散数学、操作系统原理、编译原理、算法与数据结构、面向对象方法、数据库...
    赞
    评论
    浏览 86
    水区
公告

首次进入社区的小伙伴,欢迎了解以下事项,参与相关活动:

一、RLChina 组织形式:http://rlchina.org/topic/211

二、RLChina 2023 ChatGPT 和大模型春季课程:http://rlchina.org/topic/652

三、RLChina 2022 强化学习暑期课:http://rlchina.org/topic/491

四、RLChina 智能体挑战赛:http://rlchina.org/topic/216

五、RLChina 前沿讲习班:http://rlchina.org/topic/215

六、RLChina 论文研讨会:http://rlchina.org/topic/219

合作伙伴 查看更多>>
  • 及第

    中科院自动化所多智能体开源开放平台

  • 动手学强化学习

    上海交大强化学习课程材料

签到
0
立即签到
积分排行
  • Carlos
    Carlos

    2 帖子 • 3 评论

    652
  • RLChina
    RLChina

    122 帖子 • 77 评论

    437
  • Frei0d
    Frei0d

    1 帖子 • 7 评论

    368
  • POLIXIR
    POLIXIR

    35 帖子 • 5 评论

    342
  • Rewrite
    Rewrite

    0 帖子 • 4 评论

    215
  • R
    Rlxia

    0 帖子 • 0 评论

    184
  • vinbo
    vinbo

    9 帖子 • 84 评论

    165
  • 支太行
    支太行

    17 帖子 • 34 评论

    133
  • 张海峰
    张海峰

    4 帖子 • 43 评论

    132
  • AINova
    AINova

    20 帖子 • 43 评论

    98
关于 标签 友链
© 2021 Powered by 中国科学院自动化研究所群体决策智能实验室