问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

RLPF:用于LLM用户摘要的预测反馈

创作时间:
作者:
@小白创作中心

RLPF:用于LLM用户摘要的预测反馈

引用
CSDN
1.
https://blog.csdn.net/jude2013/article/details/142055938

《RLPF: Reinforcement Learning from Prediction Feedback for User Summarization with LLMs》提出了一种新的强化学习方法RLPF(Reinforcement Learning from Prediction Feedback),用于优化大型语言模型(LLMs)生成的用户摘要,以提高下游任务的性能。

引言

大型语言模型(LLMs)在个性化预测方面展现出巨大潜力,但用户历史数据的噪声和长度给有效利用带来挑战。现有的预训练LLMs可能生成简洁但缺乏上下文的摘要,这限制了它们在个性化系统中的实用性。

RLPF方法

RLPF采用强化学习框架,其中:

  • 状态:用户的历史交互数据。
  • 动作:基于用户上下文生成的摘要。
  • 策略模型:将用户上下文映射到用户摘要的模型。
  • 奖励:使用预训练的LLM根据用户摘要进行预测,并与实际结果比较以计算奖励。

奖励计算包括:

  • 预测反馈奖励:基于LLM预测的未来活动与实际活动之间的匹配程度。
  • 长度奖励:鼓励生成较短的摘要,以提高效率和可读性。

实验细节

研究者在四个真实世界用户交互数据集上进行实验:MovieLens 2015 和 2003、Amazon Review 和 Google Local Review。评估指标包括预测性、事实性、抽象性和可读性。

结果

实验结果显示,RLPF在下游任务性能和摘要质量方面均显著优于基线方法,最高可提升22%。RLPF在16个未见任务和/或数据集上提高了性能,展示了其泛化能力。此外,RLPF还实现了在减少上下文长度74%的同时提高性能。

讨论

RLPF展示了在增强个性化方面的潜力,但使用用户数据引发了隐私和数据泄露的担忧。

相关工作

文章讨论了文本摘要、用户建模和从AI反馈中学习的相关工作。

结论

RLPF是一种有效的方法,可以从原始活动数据生成简洁且易于理解的用户摘要,通过直接优化摘要生成过程来提高下游预测性能。

本文原文来自CSDN博客

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号