南京大学
发布于

RLChina 论文研讨会第100期(2024.9.24直播)


## 导读 论文研讨会是RLChina举办的学术活动,由RL领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。 第100期论文讨论会将由南京大学博士生庞竟成同学主持,东京大学博士生Johannes Ackermann、南洋理工大学科研助理张福翔与大家分享他们近期发表的研究工作,欢迎大家参与。 互动方式:**在本帖留言,或在直播间发言**,可与报告嘉宾互动。 ## 简介 ### 主题 RLChina 论文研讨会第100期 ### 时间 2024年9月24日 16:00-17:00 ### 直播地址 B站RLChina直播间: [http://live.bilibili.com/22386217](http://live.bilibili.com/22386217) 腾讯会议:530-2730-2590 ### 报告人 Johannes Ackermann 东京大学博士生 张福翔 南洋理工大学科研助理 ### 主持人 庞竟成 南京大学博士生 ____ ### 第一场 16:00-16:30 【English report】 #### 报告人:Johannes Ackermann <img src="https://rlchian-bbs.oss-cn-beijing.aliyuncs.com/images/2024/09/21/e53a8721b024a6755754b31f8936a2fa.jfif" width = "300" alt="图片名称" align=center /> #### 报告人简介 Johannes Ackermann is a PhD student at the University of Tokyo and part-time researcher at RIKEN AIP, supervised by Professor Masashi Sugiyama. His research focuses on Reinforcement Learning with changing or complicated transition dynamics and reward functions. https://johannesack.github.io/ #### 报告标题 Offline Reinforcement Learning from Datasets with Nonstationarity #### 报告摘要 Offline RL aims to learn a policy from a a dataset collected by a different behavior policy. However, when collecting a dataset in practice over a longer timeframe usually the environment changes. We thus address a problem setting in which, while collecting the dataset, the transition and reward functions gradually change between episodes but stay constant within each episode. We propose a method based on Contrastive Predictive Coding that identifies this non-stationarity in the offline dataset, accounts for it when training a policy, and predicts it during evaluation. We analyze our proposed method and show that it performs well in simple continuous control tasks and challenging, high-dimensional locomotion tasks. We show that our method often achieves the oracle performance and performs better than baselines. #### 发表信息 Offline Reinforcement Learning from Datasets with Structured Non-Stationarity. Johannes Ackermann, Takayuki Osa, and Masashi Sugiyama. RLC 2024. https://arxiv.org/abs/2405.14114 ____ ### 第二场 16:30-17:00 #### 报告人:张福翔 <img src="https://rlchian-bbs.oss-cn-beijing.aliyuncs.com/images/2024/09/21/5187e57c376da8a7ea0d8231963ee1c5.png" width = "300" alt="图片名称" align=center /> #### 报告人简介 张福翔,南洋理工大学科研助理,研究方向包括大语言模型对齐和强化学习。 #### 报告标题 Q-Adapter: Training Your LLM Adapter as a Residual Q-Function #### 报告摘要 我们考虑预训练大型语言模型(LLM)在下游偏好数据上的对齐问题,常见的做法是使用偏好数据进行监督学习微调(SFT)或从中学习奖励模型用于强化学习。然而,下游任务的微调会使大模型出现显著的遗忘问题。为了在对齐大型语言模型的同时保留其原有能力,我们提出了Q-Adapter,将大型语言模型的对齐问题形式化为最大化两个奖励的组合,其中一个为预训练的大型语言模型对应的奖励,另一个是下游偏好数据对应的奖励。尽管我们无法直接获得两个奖励函数,我们证明可以通过直接从偏好数据中学习一个新模块以近似残差Q函数,从而解决这个问题。实验结果表明,Q-Adapter在一系列特定领域任务和安全对齐任务中具备有效的抗遗忘和新任务适应能力。 #### 发表信息 Li, Yi-Chen, Fuxiang Zhang, Wenjie Qiu, Lei Yuan, Chengxing Jia, Zongzhang Zhang, and Yang Yu. Q-Adapter: Training Your LLM Adapter as a Residual Q-Function. arXiv preprint arXiv:2407.03856. 2024. ____ ## 联系我们 Email: <rlchinacamp@163.com> ![ ](https://rlchian-bbs.oss-cn-beijing.aliyuncs.com/images/2022/01/04/28e6d1562d52b03777c03a3a92709cb3.jfif)

导读

论文研讨会是RLChina举办的学术活动,由RL领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。

第100期论文讨论会将由南京大学博士生庞竟成同学主持,东京大学博士生Johannes Ackermann、南洋理工大学科研助理张福翔与大家分享他们近期发表的研究工作,欢迎大家参与。

互动方式:在本帖留言,或在直播间发言,可与报告嘉宾互动。

简介

主题

RLChina 论文研讨会第100期

时间

2024年9月24日 16:00-17:00

直播地址

B站RLChina直播间: http://live.bilibili.com/22386217
腾讯会议:530-2730-2590

报告人

Johannes Ackermann 东京大学博士生
张福翔 南洋理工大学科研助理

主持人

庞竟成 南京大学博士生


第一场 16:00-16:30 【English report】

报告人:Johannes Ackermann

图片名称

报告人简介

Johannes Ackermann is a PhD student at the University of Tokyo and part-time researcher at RIKEN AIP, supervised by Professor Masashi Sugiyama. His research focuses on Reinforcement Learning with changing or complicated transition dynamics and reward functions. https://johannesack.github.io/

报告标题

Offline Reinforcement Learning from Datasets with Nonstationarity

报告摘要

Offline RL aims to learn a policy from a a dataset collected by a different behavior policy. However, when collecting a dataset in practice over a longer timeframe usually the environment changes. We thus address a problem setting in which, while collecting the dataset, the transition and reward functions gradually change between episodes but stay constant within each episode. We propose a method based on Contrastive Predictive Coding that identifies this non-stationarity in the offline dataset, accounts for it when training a policy, and predicts it during evaluation. We analyze our proposed method and show that it performs well in simple continuous control tasks and challenging, high-dimensional locomotion tasks. We show that our method often achieves the oracle performance and performs better than baselines.

发表信息

Offline Reinforcement Learning from Datasets with Structured Non-Stationarity. Johannes Ackermann, Takayuki Osa, and Masashi Sugiyama. RLC 2024. https://arxiv.org/abs/2405.14114


第二场 16:30-17:00

报告人:张福翔

图片名称

报告人简介

张福翔,南洋理工大学科研助理,研究方向包括大语言模型对齐和强化学习。

报告标题

Q-Adapter: Training Your LLM Adapter as a Residual Q-Function

报告摘要

我们考虑预训练大型语言模型(LLM)在下游偏好数据上的对齐问题,常见的做法是使用偏好数据进行监督学习微调(SFT)或从中学习奖励模型用于强化学习。然而,下游任务的微调会使大模型出现显著的遗忘问题。为了在对齐大型语言模型的同时保留其原有能力,我们提出了Q-Adapter,将大型语言模型的对齐问题形式化为最大化两个奖励的组合,其中一个为预训练的大型语言模型对应的奖励,另一个是下游偏好数据对应的奖励。尽管我们无法直接获得两个奖励函数,我们证明可以通过直接从偏好数据中学习一个新模块以近似残差Q函数,从而解决这个问题。实验结果表明,Q-Adapter在一系列特定领域任务和安全对齐任务中具备有效的抗遗忘和新任务适应能力。

发表信息

Li, Yi-Chen, Fuxiang Zhang, Wenjie Qiu, Lei Yuan, Chengxing Jia, Zongzhang Zhang, and Yang Yu. Q-Adapter: Training Your LLM Adapter as a Residual Q-Function. arXiv preprint arXiv:2407.03856. 2024.


联系我们

Email: rlchinacamp@163.com

导读

论文研讨会是RLChina举办的学术活动,由RL领域不同研究团队轮流担任主持人,邀请一线研究人员针对特定论文做交流分享。

第100期论文讨论会将由南京大学博士生庞竟成同学主持,东京大学博士生Johannes Ackermann、南洋理工大学科研助理张福翔与大家分享他们近期发表的研究工作,欢迎大家参与。

互动方式:在本帖留言,或在直播间发言,可与报告嘉宾互动。

简介

主题

RLChina 论文研讨会第100期

时间

2024年9月24日 16:00-17:00

直播地址

B站RLChina直播间: http://live.bilibili.com/22386217
腾讯会议:530-2730-2590

报告人

Johannes Ackermann 东京大学博士生
张福翔 南洋理工大学科研助理

主持人

庞竟成 南京大学博士生


第一场 16:00-16:30 【English report】

报告人:Johannes Ackermann

图片名称

报告人简介

Johannes Ackermann is a PhD student at the University of Tokyo and part-time researcher at RIKEN AIP, supervised by Professor Masashi Sugiyama. His research focuses on Reinforcement Learning with changing or complicated transition dynamics and reward functions. https://johannesack.github.io/

报告标题

Offline Reinforcement Learning from Datasets with Nonstationarity

报告摘要

Offline RL aims to learn a policy from a a dataset collected by a different behavior policy. However, when collecting a dataset in practice over a longer timeframe usually the environment changes. We thus address a problem setting in which, while collecting the dataset, the transition and reward functions gradually change between episodes but stay constant within each episode. We propose a method based on Contrastive Predictive Coding that identifies this non-stationarity in the offline dataset, accounts for it when training a policy, and predicts it during evaluation. We analyze our proposed method and show that it performs well in simple continuous control tasks and challenging, high-dimensional locomotion tasks. We show that our method often achieves the oracle performance and performs better than baselines.

发表信息

Offline Reinforcement Learning from Datasets with Structured Non-Stationarity. Johannes Ackermann, Takayuki Osa, and Masashi Sugiyama. RLC 2024. https://arxiv.org/abs/2405.14114


第二场 16:30-17:00

报告人:张福翔

图片名称

报告人简介

张福翔,南洋理工大学科研助理,研究方向包括大语言模型对齐和强化学习。

报告标题

Q-Adapter: Training Your LLM Adapter as a Residual Q-Function

报告摘要

我们考虑预训练大型语言模型(LLM)在下游偏好数据上的对齐问题,常见的做法是使用偏好数据进行监督学习微调(SFT)或从中学习奖励模型用于强化学习。然而,下游任务的微调会使大模型出现显著的遗忘问题。为了在对齐大型语言模型的同时保留其原有能力,我们提出了Q-Adapter,将大型语言模型的对齐问题形式化为最大化两个奖励的组合,其中一个为预训练的大型语言模型对应的奖励,另一个是下游偏好数据对应的奖励。尽管我们无法直接获得两个奖励函数,我们证明可以通过直接从偏好数据中学习一个新模块以近似残差Q函数,从而解决这个问题。实验结果表明,Q-Adapter在一系列特定领域任务和安全对齐任务中具备有效的抗遗忘和新任务适应能力。

发表信息

Li, Yi-Chen, Fuxiang Zhang, Wenjie Qiu, Lei Yuan, Chengxing Jia, Zongzhang Zhang, and Yang Yu. Q-Adapter: Training Your LLM Adapter as a Residual Q-Function. arXiv preprint arXiv:2407.03856. 2024.


联系我们

Email: rlchinacamp@163.com

评论