- 发布于2025-04-23 23:43:15
多智能体强化学习求助!
训练效果很好,奖励看着也收敛,最后的智能体表现在训练结束前的 100 个 episode 表现都不错,为什么最后保存下来的模型加载评估的时候效果大打折扣?已经开启了。eval(),然后评估时为了看智能体学习的程度,我没有更换评估的环境,仍然是之前训练的环境...赞评论 10浏览 318 - 发布于2025-03-02 17:49:20赞 2评论浏览 447
- 赞评论浏览 318
- 发布于2024-08-19 14:59:20
具身智能实习生招聘(上海)
白辰甲课题组招收具身智能/强化学习方向实习生 职责:进行相关科研工作,发表高水平国际学术论文。具体方向包括: 强化学习方向,包含离线学习、多智能体学习、探索和表征、安全强化学习、偏好学习、迁移和泛化等主题。 决策大模型,包括 LLM 规划,世界模型学习,多...赞 1评论浏览 994