问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

LongRecipe——高效扩展大语言模型上下文窗口的秘籍

创作时间:

作者:

@小白创作中心

LongRecipe——高效扩展大语言模型上下文窗口的秘籍

引用

CSDN

1.

https://m.blog.csdn.net/Yuleave/article/details/145248064

大语言模型（LLMs）在处理长上下文任务时面临着显著的挑战，主要源于预训练过程中有限的有效上下文窗口大小。为了解决这一问题，研究者提出了LongRecipe框架，通过影响力词分析、位置索引转换和训练优化策略三个核心组件，实现了上下文窗口的高效扩展。

大语言模型的挑战与机遇

大语言模型（LLMs）在自然语言处理和多模态任务中扮演着至关重要的角色。然而，在处理长上下文任务时，它们面临着显著的挑战。这些挑战源于预训练过程中有限的有效上下文窗口大小，限制了模型对长序列的泛化能力。

长文档摘要：如何高效处理和总结长篇文档？
长篇问答：如何在大段文本中找到准确的答案？
文档级检索：如何在海量信息中快速定位所需内容？

LongRecipe：高效扩展上下文窗口的框架

为了应对上述挑战，研究者提出了LongRecipe，一种高效的LLMs上下文窗口扩展训练策略。该框架通过以下三个核心组件实现：

影响力词分析（Impactful Token Analysis）

目标：识别对长文本训练有显著影响的词。
方法：通过比较基线模型和扩展模型在相同输入下的logit变化，筛选出变化最大的词类型，并选择包含这些词的句子进行上采样。
效果：减少文本长度，同时保留关键信息，提高训练效率。

图1：LongRecipe方法概述

位置索引转换（Position Index Transformation）

目标：利用当前数据模拟更长的输入上下文。
方法：将原始序列分割成多个片段，并通过随机跳过一些位置索引来模拟长序列的位置索引，从而扩展模型处理长序列的能力。
效果：在不依赖实际长文本的情况下，增强模型对长程依赖关系的理解。

训练优化策略（Training Optimization Strategies）

预训练数据重放（Pretraining Data Replay）：在长序列扩展训练后，使用与原始预训练数据分布相同的重放数据集进行进一步训练，以恢复和增强模型的一般能力。
模型合并（Model Merging）：将原始模型和经过长序列训练及数据重放的模型进行合并，保留原始模型的基础能力和扩展模型的长期上下文处理能力。

实验结果：显著提升与资源节省

研究者使用三种类型的LLMs（Llama3-8B, Mistral-7B, Qwen2-7B）在多个基准测试上进行了实验，包括：

长上下文泛化任务：
NIAH(M)：多针检索任务，LongRecipe在Llama3-8B-I (80k)上相比PoSE提升了10.1%。
RULER：LongRecipe在Mistral-7B (128k)上相比PoSE提升了11.9%。
通用能力测试：
MMLU：涵盖STEM、人文社科等多个领域的测试，模型在扩展上下文窗口后仍能保持较高的性能。
GSM8K和HumanEval：数学和编程能力测试，模型在扩展后仍能恢复约75%和65%的原始能力。

关键数据：

资源节省：LongRecipe仅需目标上下文窗口大小的30%，并减少了超过85%的计算训练资源。
性能提升：在80k和128k的上下文窗口下，LongRecipe在四个指标上平均提升了约5.5%。

深入分析：LongRecipe的优势与影响

影响力词分析与位置索引转换的效果

随机选择句子 vs. 分析词模式：随机选择句子会导致性能显著下降，而基于影响力词分析的方法则显著提升了模型在NIAH(M)和RULER任务上的表现。
位置索引转换的影响：相比PoSE，位置索引转换带来了平均3.3%的性能提升。

图2：不同方法下token间平均距离对比

预训练数据重放和模型合并对保持通用能力的影响

数据重放：在GSM8K数据集上，重放数据后模型性能提升明显。
模型合并：进一步合并原始模型后，模型在MMLU上的表现从63%提升到65.7%。

图3：不同训练阶段性能对比

语义连贯性与长上下文训练的关系

LongDependency Score：LongRecipe构建的数据在长依赖关系上得分高于PoSE和RPES，接近于FLT（使用多个短文档拼接的数据），表明LongRecipe不会显著损害长上下文训练所需的长依赖关系。

结论与展望

LongRecipe提供了一种高效且有效的方法来扩展LLMs的上下文窗口，在显著减少计算资源的同时，提升了模型对长程依赖关系的理解能力。未来，研究者计划：

监督微调（SFT）：结合LongWriter等长上下文SFT方法，进一步提升模型性能。
更长的上下文窗口：训练和发布具有512k和1M token容量的模型，以满足更广泛的应用需求。

参考文献

Zhiyuan Hu, et al. “LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models.”github
其他相关文献详见原文。

免责声明：本文内容仅供参考，不代表任何官方立场。

热门推荐

农村宅基地一般多少钱一平

农村宅基地一般多少钱一平

如何判断黄金买卖的时机？这些时机选择依据什么指标？

如何判断黄金买卖的时机？这些时机选择依据什么指标？

走丁未大运好不好

走丁未大运好不好

姜子牙出装攻略：从核心装备到实战技巧，打造最强法师

姜子牙出装攻略：从核心装备到实战技巧，打造最强法师

测试！哪些集成显卡可以运行《黑神话：悟空》？

测试！哪些集成显卡可以运行《黑神话：悟空》？

习俗影响是什么？从法律视角解读社会文化传统的力量

习俗影响是什么？从法律视角解读社会文化传统的力量

车内怎样进行漂亮的装饰？车内装饰有哪些风格可以选择？

车内怎样进行漂亮的装饰？车内装饰有哪些风格可以选择？

破案！科学家破解金字塔建造之谜，巨大石料竟是这样运输的

破案！科学家破解金字塔建造之谜，巨大石料竟是这样运输的

湘菜九大传统“名菜”，流传了1000多年，但80%的湖南人都没吃过

湘菜九大传统“名菜”，流传了1000多年，但80%的湖南人都没吃过

「姜黄」抗氧化超強又護肝！6種成分一起吃效果更好！

「姜黄」抗氧化超強又護肝！6種成分一起吃效果更好！

如何带动新团队培训气氛

如何带动新团队培训气氛

比特币和区块链详解：从技术原理到运行机制

比特币和区块链详解：从技术原理到运行机制

新手必看！鬃狮蜥饲养指南，轻松成为爬宠达人

新手必看！鬃狮蜥饲养指南，轻松成为爬宠达人

姿态管理项目有哪些

姿态管理项目有哪些

土耳其式牛肚汤

土耳其式牛肚汤

刷短视频停不下来，真的是大脑退化了吗？

刷短视频停不下来，真的是大脑退化了吗？

揭秘皮肤上红色小点点的秘密

揭秘皮肤上红色小点点的秘密

拿破仑教你成为优秀领导者

拿破仑教你成为优秀领导者

世界肿瘤日 | 保“胃”战役，“肠”治久安！

世界肿瘤日 | 保“胃”战役，“肠”治久安！

耳聋左慈丸：治疗耳鸣耳聋的秘密武器

耳聋左慈丸：治疗耳鸣耳聋的秘密武器

一个人爱自言自语是什么原因

一个人爱自言自语是什么原因

崩坏星穹铁道3.0版本什么时候更新,3.0版更新时间表

崩坏星穹铁道3.0版本什么时候更新,3.0版更新时间表

益生菌别乱吃，这样服用效果才好

益生菌别乱吃，这样服用效果才好

贵、难吃！正流行的无麸质饮食，更健康？

贵、难吃！正流行的无麸质饮食，更健康？

创业计划书的六大要素

创业计划书的六大要素

《某科学的超电磁炮》第四季动画确定制作！御坂美琴热血归来

《某科学的超电磁炮》第四季动画确定制作！御坂美琴热血归来

汽车经营范围怎么写最好：法律视角下的规范化与合规性分析

汽车经营范围怎么写最好：法律视角下的规范化与合规性分析

环世界1.5版本更新内容及新DLC《Anomaly》预告

环世界1.5版本更新内容及新DLC《Anomaly》预告

数据监控中，如何用报表工具分析员工离职率的变化趋势？

数据监控中，如何用报表工具分析员工离职率的变化趋势？

惊人的发现！静香的魅力完全解析：你可能不知道的静香的秘密

惊人的发现！静香的魅力完全解析：你可能不知道的静香的秘密

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号