DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本
创作时间:
作者:
@小白创作中心
DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本
引用
1
来源
1.
https://hub.baai.ac.cn/view/43519
DeepSeek最新提出的NSA(Native Sparse Attention)注意力机制在学术界引发热议。这种原生稀疏注意力机制在保持模型性能的同时,大幅降低了计算成本,为大模型的训练和推理提供了新的解决方案。
NSA机制的核心创新
NSA的核心方法包括动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择。整体框架上,NSA通过压缩、选择和滑动窗口三种映射策略,用更紧凑的键值对替代原始注意力中的键值对,保持高稀疏率。
具体来说:
- 粗粒度Token压缩:将连续的Token聚合成块级表示,捕获全局语义信息,减少计算负担。
- 细粒度Token选择:从序列中选择最重要的Token,保留关键的局部信息。
- 滑动窗口:避免局部模式的过度优势,确保模型能有效学习压缩和选择的Token。
实验效果显著
研究人员用27B参数规模的模型进行了实验,结果显示,NSA在多个方面都取得了显著的效果:
- 在预训练损失方面,NSA不仅保持了稳定的收敛性,还实现了更低的损失值。
- 在包含知识、推理和编码能力的多个通用基准测试中,NSA模型性能不降反超,特别是在推理任务DROP中提升尤为明显。
- 在长上下文处理方面,NSA在64k上下文的“大海捞针”测试中完美过关,并在需要复杂长下文推理的各项任务中基本超过了基线模型。
- 在思维链推理评估中,通过知识蒸馏和监督微调,在8k和16k上下文设置下,AIME任务中NSA-R的得分均超过了全注意力模型。
效率方面,在8-GPU A100系统上,NSA的训练加速效果会随上下文长度的增加而增强。在64k上下文长度时,具体表现为:
- 前向传播速度最高可提升9倍
- 反向传播速度最高可提升6倍
- 解码速度提升可达11.6倍
技术突破的意义
在马斯克推出Grok 3引发业界关注的同时,DeepSeek为代表的效率派们显然在引发另一种方向上的思考:通往AGI的路,可以更高效,更本地化,更人人可用。
正如ViT核心作者Lucas Beyer所言,NSA意味着DeepSeek找到了优化注意力的方法,可以用更少的算力更加高效地训练大模型,并且,他们还把这些“秘籍”公开了出来。
结语
DeepSeek新提出的NSA注意力机制在学术界引发热议。这种原生稀疏注意力机制在保持模型性能的同时,大幅降低了计算成本,为大模型的训练和推理提供了新的解决方案。
热门推荐
宠物寄养不愿怎么办(应对策略及照顾方法)
老班章古茶山的秘密:澜沧古茶的顶级工艺
老班章普洱茶:投资收藏的新宠?专家详解其价值与风险
老班章普洱茶冲泡秘籍:从选购到品鉴的完整指南
张一山杨紫:20年友情的坚守与成长
张一山杨紫再续前缘,《新鹿鼎记》引爆期待
《家有儿女》20周年:张一山杨紫的友情见证
经典名肴——小笋炒腊肉
冬笋的烹饪方法与食用指南
从《我的路》到作协会员:刘晓庆的文学之路
日本救心丹真这么火?揭秘背后真相
日本救心丹使用指南:剂量、禁忌与储存方法
突发心脏病?学会正确使用日本救心丹
奇瑞车主维权成功,4S店全额退款
如何撰写令人难忘的节日祝福文案技巧与范例分享
苯磺酸左旋氨氯地平最佳服用时间
年销80亿!降压药“一哥”左氨氯地平,一定要知道这5点
补充膳食纤维很简单,看完就会
缓解便秘,吃哪种水果最管用?
新粗野主义新年头像色彩大揭秘
治老人口干绝招的中药
《九鼎传说》新春祝福语大集合:以“鼎”为引,开启祝福新篇章
朋友圈新年祝福语大集合,快来抄作业!
Michal Malewicz揭秘新粗野主义设计趋势
意大利粗野主义建筑玩转新材料
方志辉教授:糖尿病,把好“脾胃”这一关,很重要!
红参枸杞:养生界的黄金搭档
拜心通:高血压患者的降压利器
【大数据】—“西游记“全集文本数据挖掘分析实战教程
竖琴版《夏目友人帐》BGM:一首治愈心灵的温暖乐章