RLChina
RLChina 是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。
发布于

前沿进展九:多样性强化学习——不光要赢,还要赢得精彩

评论(15)
  • Xander
    Xander 回复
    dd dd 2022-08-26 09:50:15

    老师您好,感谢分享,我想请教一个小问题:想要学到多种不同的策略,比如激进的和保守的,是否可以通过将 reward function 分解为一个基本奖励的项加上一评估激进与否的项,再在这个二维的奖励空间上搜索一组最优平面上的策略?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • Xander
    Xander 回复
    H hwb 2022-08-26 09:47:53

    在单智能体强化学习上,是否也可以应用 reward-randomization 的技巧来替代手动调整与设计 reward shaping 相关的超参数,以解决某些困难探索的问题?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • Xander
    Xander 回复
    M mikufans39 2022-08-26 09:26:19

    老师您好,我想请问一下,使用 RPG 方法重新定义 reward 的时候,为了获得切实有效的新 reward 定义,在智能体之间的利益分析方面有什么技巧吗?还是具体问题具体分析?

    感谢这位同学的提问,恭喜获赠书籍!RLChina 强化学习社区后续会送出,请在 9 月 15 日前发送您的社区昵称、注册邮箱、姓名、电话和寄送地址至官方邮箱 rlchinacamp@163.com

  • tom 回复

    请问一开始说的 reward permutation 这一块,得有先验知道有哪些策略才知道该怎么去拉伸,但是如果不知道有多少策略的话,random 去调的会不会导致策略的稳定性较差,该如何 permuatation 能 balance 好稳定性和准确率?

  • hwb 回复

    reward randomization 所带来的环境动态变化,会增加算法的不稳定性吗?

  • Victorlee 回复
    多样性强化学习,对手建模是否对策略多样性影响很大?有没有比较有效的对手建模的相关方法?
  • Carlos
    Carlos 回复

    感觉在官方奥林匹克跑步 PPO 算法中也用到了 Trajectory Filtering 这个技巧, 舍弃了智能体没有到终点的许多轨迹 (请教一个关于官方 PPO 的问题 #5), 请问老师在更复杂的游戏, 比如足球 11v11 的环境中, 如果想要获得一簇 diverse 的策略, 感觉很难对 reward 和 trajectory 做修改, 请问应该如何得到这些策略, 如何评价其好坏呢?

  • Hai 回复
    请问在stag-hunt中,如果等待鹿的奖励非常低,那么两个猎手会不约而同的追捕兔子么,如果等鹿和追兔的奖励相同该如何选择?
  • 菩提无树 回复

    请问对于延迟奖励的问题,有什么比较好的 reward 设计策略吗?

  • fuxian 回复

    请问是否会过度追求探索的宽度,影响探索的深度,即有些策略需要不断探索增加探索轨迹的长度

  • dd
    dd 回复

    老师您好,感谢分享,我想请教一个小问题:想要学到多种不同的策略,比如激进的和保守的,是否可以通过将 reward function 分解为一个基本奖励的项加上一评估激进与否的项,再在这个二维的奖励空间上搜索一组最优平面上的策略?

  • hwb 回复

    在单智能体强化学习上,是否也可以应用 reward-randomization 的技巧来替代手动调整与设计 reward shaping 相关的超参数,以解决某些困难探索的问题?

  • rl-gou 回复

    前面的例子,前提是环境的转移概率 P 已知,是不是?

  • mikufans39 回复

    老师您好,我想请问一下,使用 RPG 方法重新定义 reward 的时候,为了获得切实有效的新 reward 定义,在智能体之间的利益分析方面有什么技巧吗?还是具体问题具体分析?

  • rl-gou 回复

    多样性强化学习对于旅行商等问题是不是很有优势?