张伟楠
上海交通大学副教授,研究强化学习、数据科学。
发布于

上海交通大学强化学习课件

评论(11)
  • 董淼 回复
    沈键 2023-03-25 15:11:55

    事先设定一个 batch_size,每次从多条轨迹的所有(s,a)数据里面采样 batch_size 个数据即可。从理论上来理解,并不需要轨迹去一一对应,而是需要(s,a)分布去对齐,所以每次从两个分布中采样数据去进行判别。书中只有一条专家轨迹,直接用这一条轨迹可以视为是一种特殊情况。

    好的,谢谢您的回复,我去试试

  • 沈键 回复
    董淼 2023-03-24 17:41:15

    张老师您好,我想问一下,书中给出的 GAIL 实例代码中专家轨迹只有一条,那如果是复杂环境需要多条轨迹的话,判别器的数据输入那里要怎么处理呢?生成器生成的一个完整过程的状态动作对要和哪一条专家轨迹进行判别呢?

    事先设定一个 batch_size,每次从多条轨迹的所有(s,a)数据里面采样 batch_size 个数据即可。从理论上来理解,并不需要轨迹去一一对应,而是需要(s,a)分布去对齐,所以每次从两个分布中采样数据去进行判别。书中只有一条专家轨迹,直接用这一条轨迹可以视为是一种特殊情况。

  • 董淼 回复

    张老师您好,我想问一下,书中给出的 GAIL 实例代码中专家轨迹只有一条,那如果是复杂环境需要多条轨迹的话,判别器的数据输入那里要怎么处理呢?生成器生成的一个完整过程的状态动作对要和哪一条专家轨迹进行判别呢?

  • vinbo
    vinbo 回复
    张伟楠 张伟楠 2022-06-08 19:32:52

    谢谢你的反馈。课件其实和上海交大 ACM 班强化学习课是一样的,不少学习的同学还是反应偏难了一些。

    不难不难,千万别改简单了。我还觉得应该再多点理论推导呢。

  • Janayt
    Janayt 回复

    请问伯禹上的视频内容和下载的 ppt 有出入,ppt 的原视频有嘛?

  • 张伟楠
    张伟楠 回复
    未名 2022-06-08 17:13:13

    好的,谢谢张老师,视频之前有学习过,您的作品质量非常高,非常感谢您的回复

    谢谢你的反馈。课件其实和上海交大 ACM 班强化学习课是一样的,不少学习的同学还是反应偏难了一些。

  • 未名 回复
    张伟楠 张伟楠 2022-06-08 17:08:34

    还请在 https://www.boyuai.com/rl 观看相关知识点的视频。

    好的,谢谢张老师,视频之前有学习过,您的作品质量非常高,非常感谢您的回复

  • 张伟楠
    张伟楠 回复
    未名 2022-06-08 16:21:58

    非常感谢,已经到手了张老师的《动手强化学习》,请问这里提到的张老师的录音怎样才能在 PPT 中听到呢?

    还请在 https://www.boyuai.com/rl 观看相关知识点的视频。

  • 未名 回复

    非常感谢,已经到手了张老师的《动手强化学习》,请问这里提到的张老师的录音怎样才能在 PPT 中听到呢?

  • VincentWei
    VincentWei 回复

    非常感谢,我已经购买了《动手学强化学习》

  • chenvy
    chenvy 回复

    非常感谢