DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本
创作时间:
作者:
@小白创作中心
DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本
引用
1
来源
1.
https://hub.baai.ac.cn/view/43519
DeepSeek最新提出的NSA(Native Sparse Attention)注意力机制在学术界引发热议。这种原生稀疏注意力机制在保持模型性能的同时,大幅降低了计算成本,为大模型的训练和推理提供了新的解决方案。
NSA机制的核心创新
NSA的核心方法包括动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择。整体框架上,NSA通过压缩、选择和滑动窗口三种映射策略,用更紧凑的键值对替代原始注意力中的键值对,保持高稀疏率。
具体来说:
- 粗粒度Token压缩:将连续的Token聚合成块级表示,捕获全局语义信息,减少计算负担。
- 细粒度Token选择:从序列中选择最重要的Token,保留关键的局部信息。
- 滑动窗口:避免局部模式的过度优势,确保模型能有效学习压缩和选择的Token。
实验效果显著
研究人员用27B参数规模的模型进行了实验,结果显示,NSA在多个方面都取得了显著的效果:
- 在预训练损失方面,NSA不仅保持了稳定的收敛性,还实现了更低的损失值。
- 在包含知识、推理和编码能力的多个通用基准测试中,NSA模型性能不降反超,特别是在推理任务DROP中提升尤为明显。
- 在长上下文处理方面,NSA在64k上下文的“大海捞针”测试中完美过关,并在需要复杂长下文推理的各项任务中基本超过了基线模型。
- 在思维链推理评估中,通过知识蒸馏和监督微调,在8k和16k上下文设置下,AIME任务中NSA-R的得分均超过了全注意力模型。
效率方面,在8-GPU A100系统上,NSA的训练加速效果会随上下文长度的增加而增强。在64k上下文长度时,具体表现为:
- 前向传播速度最高可提升9倍
- 反向传播速度最高可提升6倍
- 解码速度提升可达11.6倍
技术突破的意义
在马斯克推出Grok 3引发业界关注的同时,DeepSeek为代表的效率派们显然在引发另一种方向上的思考:通往AGI的路,可以更高效,更本地化,更人人可用。
正如ViT核心作者Lucas Beyer所言,NSA意味着DeepSeek找到了优化注意力的方法,可以用更少的算力更加高效地训练大模型,并且,他们还把这些“秘籍”公开了出来。
结语
DeepSeek新提出的NSA注意力机制在学术界引发热议。这种原生稀疏注意力机制在保持模型性能的同时,大幅降低了计算成本,为大模型的训练和推理提供了新的解决方案。
热门推荐
青岛必去的12个景点,去过6个以上算合格,去过10个以上不简单!
如何应对恶意投诉与诬告
新春活动亮点抢先看!镇江文旅景区“花式”过大年
洧川镇:穿越“时空”访古镇
张居正的改革有哪些优缺点对明朝产生了哪些影响
身份证正反面合并攻略:手机电脑双管齐下,轻松搞定!
凉鞋如何选,这篇最全!
王一博GT3夺冠:速度与激情的完美演绎
2024-2025年新能源汽车补贴政策全揭秘及购车攻略
龙胆泻肝丸能治甲状腺结节吗?中医专家这样回答
龙胆泻肝丸:从“伤肝”争议到安全用药
信用卡犯罪的主要类型:罪名、类型与研究
孩子成长过程中难免犯错,父母在批评时千万要注意以下5点!
小砂锅里的大美味——多样化砂锅菜肴制作指南
鸡蛋羹火遍全网,健康饮食新宠儿
蛋鲜森教你蒸出滑嫩如豆腐脑的鸡蛋羹
超级嫩滑蒸鸡蛋羹,宝宝辅食新宠!
蒸鸡蛋羹:健脑益智的秘密武器
鼻毛外窜是福还是祸?一文读懂鼻毛的秘密
同仁堂龙胆泻肝丸:350年经典名方的正确使用指南
【健康科普】如何正确做雾化,肺炎家长重点学习
老中医揭秘中药炖煮秘籍
冬季养生必备:选对中药锅具,煎出健康好味道
砂锅煎中药,营养不流失的秘密
砂锅还是陶瓷锅?煎中药神器大揭秘
力量训练助你一夜好眠!
中医养生改善睡眠质量的小妙招
如何通过互动营销与客户建立深层次信任关系?
全面提升网站性能的优化策略与用户体验分析指南
福建温泉度假村有哪些