LongRecipe——高效扩展大语言模型上下文窗口的秘籍
创作时间:
作者:
@小白创作中心
LongRecipe——高效扩展大语言模型上下文窗口的秘籍
引用
CSDN
1.
https://m.blog.csdn.net/Yuleave/article/details/145248064
大语言模型(LLMs)在处理长上下文任务时面临着显著的挑战,主要源于预训练过程中有限的有效上下文窗口大小。为了解决这一问题,研究者提出了LongRecipe框架,通过影响力词分析、位置索引转换和训练优化策略三个核心组件,实现了上下文窗口的高效扩展。
大语言模型的挑战与机遇
大语言模型(LLMs)在自然语言处理和多模态任务中扮演着至关重要的角色。然而,在处理长上下文任务时,它们面临着显著的挑战。这些挑战源于预训练过程中有限的有效上下文窗口大小,限制了模型对长序列的泛化能力。
- 长文档摘要:如何高效处理和总结长篇文档?
- 长篇问答:如何在大段文本中找到准确的答案?
- 文档级检索:如何在海量信息中快速定位所需内容?
LongRecipe:高效扩展上下文窗口的框架
为了应对上述挑战,研究者提出了LongRecipe,一种高效的LLMs上下文窗口扩展训练策略。该框架通过以下三个核心组件实现:
- 影响力词分析(Impactful Token Analysis)
- 目标:识别对长文本训练有显著影响的词。
- 方法:通过比较基线模型和扩展模型在相同输入下的logit变化,筛选出变化最大的词类型,并选择包含这些词的句子进行上采样。
- 效果:减少文本长度,同时保留关键信息,提高训练效率。
图1:LongRecipe方法概述
- 位置索引转换(Position Index Transformation)
- 目标:利用当前数据模拟更长的输入上下文。
- 方法:将原始序列分割成多个片段,并通过随机跳过一些位置索引来模拟长序列的位置索引,从而扩展模型处理长序列的能力。
- 效果:在不依赖实际长文本的情况下,增强模型对长程依赖关系的理解。
- 训练优化策略(Training Optimization Strategies)
- 预训练数据重放(Pretraining Data Replay):在长序列扩展训练后,使用与原始预训练数据分布相同的重放数据集进行进一步训练,以恢复和增强模型的一般能力。
- 模型合并(Model Merging):将原始模型和经过长序列训练及数据重放的模型进行合并,保留原始模型的基础能力和扩展模型的长期上下文处理能力。
实验结果:显著提升与资源节省
研究者使用三种类型的LLMs(Llama3-8B, Mistral-7B, Qwen2-7B)在多个基准测试上进行了实验,包括:
长上下文泛化任务:
NIAH(M):多针检索任务,LongRecipe在Llama3-8B-I (80k)上相比PoSE提升了10.1%。
RULER:LongRecipe在Mistral-7B (128k)上相比PoSE提升了11.9%。
通用能力测试:
MMLU:涵盖STEM、人文社科等多个领域的测试,模型在扩展上下文窗口后仍能保持较高的性能。
GSM8K和HumanEval:数学和编程能力测试,模型在扩展后仍能恢复约75%和65%的原始能力。
关键数据:
- 资源节省:LongRecipe仅需目标上下文窗口大小的30%,并减少了超过85%的计算训练资源。
- 性能提升:在80k和128k的上下文窗口下,LongRecipe在四个指标上平均提升了约5.5%。
深入分析:LongRecipe的优势与影响
- 影响力词分析与位置索引转换的效果
- 随机选择句子 vs. 分析词模式:随机选择句子会导致性能显著下降,而基于影响力词分析的方法则显著提升了模型在NIAH(M)和RULER任务上的表现。
- 位置索引转换的影响:相比PoSE,位置索引转换带来了平均3.3%的性能提升。
图2:不同方法下token间平均距离对比
- 预训练数据重放和模型合并对保持通用能力的影响
- 数据重放:在GSM8K数据集上,重放数据后模型性能提升明显。
- 模型合并:进一步合并原始模型后,模型在MMLU上的表现从63%提升到65.7%。
图3:不同训练阶段性能对比
- 语义连贯性与长上下文训练的关系
- LongDependency Score:LongRecipe构建的数据在长依赖关系上得分高于PoSE和RPES,接近于FLT(使用多个短文档拼接的数据),表明LongRecipe不会显著损害长上下文训练所需的长依赖关系。
结论与展望
LongRecipe提供了一种高效且有效的方法来扩展LLMs的上下文窗口,在显著减少计算资源的同时,提升了模型对长程依赖关系的理解能力。未来,研究者计划:
- 监督微调(SFT):结合LongWriter等长上下文SFT方法,进一步提升模型性能。
- 更长的上下文窗口:训练和发布具有512k和1M token容量的模型,以满足更广泛的应用需求。
参考文献
- Zhiyuan Hu, et al. “LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models.”github
- 其他相关文献详见原文。
免责声明:本文内容仅供参考,不代表任何官方立场。
热门推荐
喝完糖浆后多久能喝水
关于借钱,你必须知道的七个真相
汽车OBD接口加装设备是否可靠?
商家用水质电解器就能判定自来水水质?假的
头痛、嗓子疼挂什么科室?一文让你看病不再迷茫!
利用Docker分层构建优化镜像大小
高达系列对日本动画的影响有多深?富野为什么没法和宫崎骏齐名?
项目经理如何谈合作协议
杭州城市人文精神的七重维度
英国的特点介绍
学校为“成绩一般”的他开个人画展!让每个孩子拥有美好而独特的自我
经常吃什么可以变成易瘦体质
普通人最大的靠山,并非金钱、人脉,而是“天道”
诸葛亮和姜维北伐,该怎么做才可能成功?
如何打造温暖又时尚的男士秋冬穿搭指南
人民币里的文化密码:从1元到100元的千年纹饰史
被造谣诽谤没有证据怎么办
小户型的背景墙上有门?隐形门来了解一下,好看又实用
豆浆加红糖,健康又美味的搭配吗?
玫瑰水 VS 玫瑰純露:护肤功效与使用指南
在胃里安个“小支架”也能减肥!预计3到6个月可减轻20至30斤
词牌名是什么?揭秘词牌背后的故事
养守宫必备:适宜环境、食物和水。
养守宫必备:适宜环境、食物和水。
现场|百幅清代孙温绘全本红楼梦图亮相苏州
假期将至热门景点预约引关注 “黄牛”倒票如何破
物联网工程和中学物理的哪些知识有关
甲醇制氢技术:原理、效率与市场前景
属龙的年份有哪些?龙年分为几种龙?
什么是共生?概念、特征、存在类型、心理学的例子