问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本

创作时间:
作者:
@小白创作中心

DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本

引用
1
来源
1.
https://hub.baai.ac.cn/view/43519

DeepSeek最新提出的NSA(Native Sparse Attention)注意力机制在学术界引发热议。这种原生稀疏注意力机制在保持模型性能的同时,大幅降低了计算成本,为大模型的训练和推理提供了新的解决方案。

NSA机制的核心创新

NSA的核心方法包括动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择。整体框架上,NSA通过压缩、选择和滑动窗口三种映射策略,用更紧凑的键值对替代原始注意力中的键值对,保持高稀疏率。

具体来说:

  • 粗粒度Token压缩:将连续的Token聚合成块级表示,捕获全局语义信息,减少计算负担。
  • 细粒度Token选择:从序列中选择最重要的Token,保留关键的局部信息。
  • 滑动窗口:避免局部模式的过度优势,确保模型能有效学习压缩和选择的Token。

实验效果显著

研究人员用27B参数规模的模型进行了实验,结果显示,NSA在多个方面都取得了显著的效果:

  • 在预训练损失方面,NSA不仅保持了稳定的收敛性,还实现了更低的损失值。
  • 在包含知识、推理和编码能力的多个通用基准测试中,NSA模型性能不降反超,特别是在推理任务DROP中提升尤为明显。
  • 在长上下文处理方面,NSA在64k上下文的“大海捞针”测试中完美过关,并在需要复杂长下文推理的各项任务中基本超过了基线模型。
  • 在思维链推理评估中,通过知识蒸馏和监督微调,在8k和16k上下文设置下,AIME任务中NSA-R的得分均超过了全注意力模型。

效率方面,在8-GPU A100系统上,NSA的训练加速效果会随上下文长度的增加而增强。在64k上下文长度时,具体表现为:

  • 前向传播速度最高可提升9倍
  • 反向传播速度最高可提升6倍
  • 解码速度提升可达11.6倍

技术突破的意义

在马斯克推出Grok 3引发业界关注的同时,DeepSeek为代表的效率派们显然在引发另一种方向上的思考:通往AGI的路,可以更高效,更本地化,更人人可用。

正如ViT核心作者Lucas Beyer所言,NSA意味着DeepSeek找到了优化注意力的方法,可以用更少的算力更加高效地训练大模型,并且,他们还把这些“秘籍”公开了出来。

结语

DeepSeek新提出的NSA注意力机制在学术界引发热议。这种原生稀疏注意力机制在保持模型性能的同时,大幅降低了计算成本,为大模型的训练和推理提供了新的解决方案。

论文地址:
https://arxiv.org/abs/2502.11089

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号