LongReward：利用人工智能反馈改进长上下文大语言模型

创作时间:

作者:

@小白创作中心

LongReward：利用人工智能反馈改进长上下文大语言模型

引用

CSDN

https://blog.csdn.net/qq_59084968/article/details/143402811

LongReward方法通过利用人工智能反馈来改进长上下文大语言模型的性能。该方法从四个维度（有用性、逻辑性、忠实性和完整性）对模型响应进行评分，并结合DPO算法进行微调，显著提升了模型在长上下文任务中的表现。

研究背景

研究问题：这篇文章要解决的问题是如何在长上下文场景下，利用AI反馈来提高大型语言模型（LLMs）的性能。具体来说，现有的长上下文LLMs在监督微调（SFT）过程中合成的数据质量较差，影响了模型的长上下文性能。
研究难点：该问题的研究难点包括：如何在长上下文中获取可靠的奖励信号，以及如何将长上下文RL算法与SFT结合以提高模型性能。
相关工作：该问题的研究相关工作有：设计高效的注意力机制或结构化状态空间模型来扩展上下文窗口，使用自动合成的SFT数据进行模型训练，以及利用AI反馈来优化模型的无害性和真实性。

研究方法

这篇论文提出了LongReward方法，用于解决长上下文LLMs的奖励信号获取问题。具体来说，

多维度评分：LongReward利用一个现成的大型语言模型（LLM）从四个人类价值维度对长上下文模型响应进行评分：有用性、逻辑性、忠实性和完整性。每个维度的评分范围为0到10，最终奖励为这四个评分的平均值。

有用性评分：对于有用性，LLM根据查询和响应内容直接评分。引入Chain-of-Thought（CoT），要求LLM在提供最终评分前生成分析，以增强评分的可靠性和互操作性。
逻辑性评分：对于逻辑性，LLM检测响应中的逻辑错误，这些错误通常由于LLMs的生成方式导致。同样采用CoT来增强评分的可靠性。
忠实性评分：对于忠实性，LLM将响应分解为一组事实陈述，并判断每个陈述是否由检索到的上下文支持。为了适应长上下文场景，改进了事实分解和评估方法。
完整性评分：对于完整性，LLM从上下文的每个片段中提取与问题相关的信息，然后再次评估响应的完整性。采用分而治之的策略来提高评估效率。
结合DPO算法：将LongReward与离线RL算法DPO结合，构建长上下文偏好数据集，并使用DPO算法对SFT模型进行微调，以增强其长上下文能力。

实验设计

数据收集：使用GLM-4的预训练语料库构建了长上下文SFT数据集，共包含10,000篇文档，覆盖9个不同领域。文档长度从8,000到64,000个令牌不等。
模型选择：实验在两个最新的开源基础模型上进行：Llama-3.1-8B和GLM-4-9B，这两个模型都经过大规模长文本的持续预训练，并支持128k的上下文窗口。
SFT训练：使用Megatron-LM库在4个节点上使用8×H800 GPUs进行SFT训练，学习率为1e-5，批量大小为8，训练1,800步（约2个epoch）。
DPO实验：使用LongReward构建长上下文偏好数据集，采样10个候选响应，并使用Zhipu-Embedding-2*作为检索器评估忠实性。DPO训练中设置β和λ分别为0.15和0.1，学习率为1e-6，批量大小为16，训练400到800步。

结果与分析

自动评估结果：在LongBench-Chat和LongBench基准测试中，使用LongReward的DPO模型在长上下文任务上的表现显著优于SFT模型和其他基线方法。具体来说，Llama-3.1-8B和GLM-4-9B的DPO模型分别提高了4.9%和5.5%的长上下文任务性能。
忠实性评估：使用FactScore对随机抽样的260个问题进行评估，结果显示使用LongReward的DPO模型在忠实性方面得分更高，事实支持的准确率更高，减少了幻觉现象。
人类评估结果：在LongBench-Chat上进行的人类评估显示，使用LongReward的DPO模型在有用性、逻辑性、忠实性和完整性四个维度上的胜率分别为54%、54%、64%和54%，显著优于SFT基线。
短上下文任务：在MT-Bench和AlpacaEval2基准测试中，使用LongReward的DPO模型在短上下文指令跟随任务中也表现出色，整体胜率为7.51%，高于SFT基线的7.62%。

总体结论

这篇论文提出了LongReward方法，首次实现了自动为长上下文模型响应提供可靠奖励的功能。通过结合DPO算法，显著提高了长上下文LLMs的性能，并在短上下文任务中也表现出色。LongReward的成功表明，AI反馈可以有效地指导RL训练，提高模型的多维度能力。未来的工作将致力于训练更小的长上下文奖励模型，探索更长序列和更大规模模型的长上下文对齐。

热门推荐

黄花鱼的营养组成及健康价值分析