问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

DeepSeek新注意力机制引热议！梁文锋亲自提交预印本，目标明确降低计算成本

创作时间:

作者:

@小白创作中心

DeepSeek新注意力机制引热议！梁文锋亲自提交预印本，目标明确降低计算成本

引用

1

来源

1.

https://hub.baai.ac.cn/view/43519

DeepSeek最新提出的NSA（Native Sparse Attention）注意力机制在学术界引发热议。这种原生稀疏注意力机制在保持模型性能的同时，大幅降低了计算成本，为大模型的训练和推理提供了新的解决方案。

NSA机制的核心创新

NSA的核心方法包括动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择。整体框架上，NSA通过压缩、选择和滑动窗口三种映射策略，用更紧凑的键值对替代原始注意力中的键值对，保持高稀疏率。

具体来说：

粗粒度Token压缩：将连续的Token聚合成块级表示，捕获全局语义信息，减少计算负担。
细粒度Token选择：从序列中选择最重要的Token，保留关键的局部信息。
滑动窗口：避免局部模式的过度优势，确保模型能有效学习压缩和选择的Token。

实验效果显著

研究人员用27B参数规模的模型进行了实验，结果显示，NSA在多个方面都取得了显著的效果：

在预训练损失方面，NSA不仅保持了稳定的收敛性，还实现了更低的损失值。
在包含知识、推理和编码能力的多个通用基准测试中，NSA模型性能不降反超，特别是在推理任务DROP中提升尤为明显。
在长上下文处理方面，NSA在64k上下文的“大海捞针”测试中完美过关，并在需要复杂长下文推理的各项任务中基本超过了基线模型。
在思维链推理评估中，通过知识蒸馏和监督微调，在8k和16k上下文设置下，AIME任务中NSA-R的得分均超过了全注意力模型。

效率方面，在8-GPU A100系统上，NSA的训练加速效果会随上下文长度的增加而增强。在64k上下文长度时，具体表现为：

前向传播速度最高可提升9倍
反向传播速度最高可提升6倍
解码速度提升可达11.6倍

技术突破的意义

在马斯克推出Grok 3引发业界关注的同时，DeepSeek为代表的效率派们显然在引发另一种方向上的思考：通往AGI的路，可以更高效，更本地化，更人人可用。

正如ViT核心作者Lucas Beyer所言，NSA意味着DeepSeek找到了优化注意力的方法，可以用更少的算力更加高效地训练大模型，并且，他们还把这些“秘籍”公开了出来。

结语

DeepSeek新提出的NSA注意力机制在学术界引发热议。这种原生稀疏注意力机制在保持模型性能的同时，大幅降低了计算成本，为大模型的训练和推理提供了新的解决方案。

论文地址：
https://arxiv.org/abs/2502.11089

热门推荐

青岛必去的12个景点，去过6个以上算合格，去过10个以上不简单！

青岛必去的12个景点，去过6个以上算合格，去过10个以上不简单！

如何应对恶意投诉与诬告

如何应对恶意投诉与诬告

新春活动亮点抢先看！镇江文旅景区“花式”过大年

新春活动亮点抢先看！镇江文旅景区“花式”过大年

洧川镇：穿越“时空”访古镇

洧川镇：穿越“时空”访古镇

张居正的改革有哪些优缺点对明朝产生了哪些影响

张居正的改革有哪些优缺点对明朝产生了哪些影响

身份证正反面合并攻略：手机电脑双管齐下，轻松搞定！

身份证正反面合并攻略：手机电脑双管齐下，轻松搞定！

凉鞋如何选，这篇最全！

凉鞋如何选，这篇最全！

王一博GT3夺冠：速度与激情的完美演绎

王一博GT3夺冠：速度与激情的完美演绎

2024-2025年新能源汽车补贴政策全揭秘及购车攻略

2024-2025年新能源汽车补贴政策全揭秘及购车攻略

龙胆泻肝丸能治甲状腺结节吗？中医专家这样回答

龙胆泻肝丸能治甲状腺结节吗？中医专家这样回答

龙胆泻肝丸：从“伤肝”争议到安全用药

龙胆泻肝丸：从“伤肝”争议到安全用药

信用卡犯罪的主要类型：罪名、类型与研究

信用卡犯罪的主要类型：罪名、类型与研究

孩子成长过程中难免犯错，父母在批评时千万要注意以下5点！

孩子成长过程中难免犯错，父母在批评时千万要注意以下5点！

小砂锅里的大美味——多样化砂锅菜肴制作指南

小砂锅里的大美味——多样化砂锅菜肴制作指南

鸡蛋羹火遍全网，健康饮食新宠儿

鸡蛋羹火遍全网，健康饮食新宠儿

蛋鲜森教你蒸出滑嫩如豆腐脑的鸡蛋羹

蛋鲜森教你蒸出滑嫩如豆腐脑的鸡蛋羹

超级嫩滑蒸鸡蛋羹，宝宝辅食新宠！

超级嫩滑蒸鸡蛋羹，宝宝辅食新宠！

蒸鸡蛋羹：健脑益智的秘密武器

蒸鸡蛋羹：健脑益智的秘密武器

鼻毛外窜是福还是祸？一文读懂鼻毛的秘密

鼻毛外窜是福还是祸？一文读懂鼻毛的秘密

同仁堂龙胆泻肝丸：350年经典名方的正确使用指南

同仁堂龙胆泻肝丸：350年经典名方的正确使用指南

【健康科普】如何正确做雾化，肺炎家长重点学习

【健康科普】如何正确做雾化，肺炎家长重点学习

老中医揭秘中药炖煮秘籍

老中医揭秘中药炖煮秘籍

冬季养生必备：选对中药锅具，煎出健康好味道

冬季养生必备：选对中药锅具，煎出健康好味道

砂锅煎中药，营养不流失的秘密

砂锅煎中药，营养不流失的秘密

砂锅还是陶瓷锅？煎中药神器大揭秘

砂锅还是陶瓷锅？煎中药神器大揭秘

力量训练助你一夜好眠！

力量训练助你一夜好眠！

中医养生改善睡眠质量的小妙招

中医养生改善睡眠质量的小妙招

如何通过互动营销与客户建立深层次信任关系？

如何通过互动营销与客户建立深层次信任关系？

全面提升网站性能的优化策略与用户体验分析指南

全面提升网站性能的优化策略与用户体验分析指南

福建温泉度假村有哪些

福建温泉度假村有哪些

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号