- POLIXIR 南栖仙策(Polixir)是南京大学人工智能创新研究院技术孵化企业,核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。目前南栖仙策已研发出通用决策系统—仙启,开创性地提出数据驱动的虚拟环境构建技术,从少量历史交互数据中构建虚拟世界,寻找最优决策,避免在线试错的代价。发布于11天前
RNN策略训练稳定性提升秘籍:给RNN设置单独的学习率
在实际的决策任务中,信息常常是受限的,我们常常只能基于局部的信息进行决策或控制。例如在机器人操控的场景下,机器人只能观测到摄像头视角内的物体。现有的研究工作通常会结合历史的观测来补齐缺失的信息。循环强化学习(recurrent RL)使用循环神经网络来对历...赞评论浏览 74 - 发布于2023-10-11 15:27:42
一文七问 | 论文分享:大规模多智能体系统的分层均值场深度强化学习
@toc 导读 本篇推文将为大家介绍中山大学余超老师于 2023 AAAI 发表的一篇论文: Hierarchical Mean-Field Deep Reinforcement Learning for Large-Scale Multiagent Sy...赞 3评论 7浏览 1691 - 赞评论浏览 152