DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本
创作时间:
作者:
@小白创作中心
DeepSeek新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本
引用
1
来源
1.
https://hub.baai.ac.cn/view/43519
DeepSeek最新提出的NSA(Native Sparse Attention)注意力机制在学术界引发热议。这种原生稀疏注意力机制在保持模型性能的同时,大幅降低了计算成本,为大模型的训练和推理提供了新的解决方案。
NSA机制的核心创新
NSA的核心方法包括动态分层稀疏策略、粗粒度Token压缩和细粒度Token选择。整体框架上,NSA通过压缩、选择和滑动窗口三种映射策略,用更紧凑的键值对替代原始注意力中的键值对,保持高稀疏率。
具体来说:
- 粗粒度Token压缩:将连续的Token聚合成块级表示,捕获全局语义信息,减少计算负担。
- 细粒度Token选择:从序列中选择最重要的Token,保留关键的局部信息。
- 滑动窗口:避免局部模式的过度优势,确保模型能有效学习压缩和选择的Token。
实验效果显著
研究人员用27B参数规模的模型进行了实验,结果显示,NSA在多个方面都取得了显著的效果:
- 在预训练损失方面,NSA不仅保持了稳定的收敛性,还实现了更低的损失值。
- 在包含知识、推理和编码能力的多个通用基准测试中,NSA模型性能不降反超,特别是在推理任务DROP中提升尤为明显。
- 在长上下文处理方面,NSA在64k上下文的“大海捞针”测试中完美过关,并在需要复杂长下文推理的各项任务中基本超过了基线模型。
- 在思维链推理评估中,通过知识蒸馏和监督微调,在8k和16k上下文设置下,AIME任务中NSA-R的得分均超过了全注意力模型。
效率方面,在8-GPU A100系统上,NSA的训练加速效果会随上下文长度的增加而增强。在64k上下文长度时,具体表现为:
- 前向传播速度最高可提升9倍
- 反向传播速度最高可提升6倍
- 解码速度提升可达11.6倍
技术突破的意义
在马斯克推出Grok 3引发业界关注的同时,DeepSeek为代表的效率派们显然在引发另一种方向上的思考:通往AGI的路,可以更高效,更本地化,更人人可用。
正如ViT核心作者Lucas Beyer所言,NSA意味着DeepSeek找到了优化注意力的方法,可以用更少的算力更加高效地训练大模型,并且,他们还把这些“秘籍”公开了出来。
结语
DeepSeek新提出的NSA注意力机制在学术界引发热议。这种原生稀疏注意力机制在保持模型性能的同时,大幅降低了计算成本,为大模型的训练和推理提供了新的解决方案。
热门推荐
娃咳嗽老不好,可能是支原体感染——治疗须牢记这3点
缬沙坦怎么服用?医生专业解答用药指南
不能经口进食的吞咽障碍患者如何进行吞咽器官训练?
如何治疗吞咽困难
电阻越大电压越大吗?欧姆定律详解电路中的电压与电阻关系
工厂跟单工作流程
亚洲国家稳定币战略:减少对美元依赖的新路径
扭力扳手是什么?扭力扳手工作原理、作用和使用方法
脑瘤会遗传吗?家族遗传风险对照表
一文读懂脑瘤综合基因检测
商周之变:西周初期的政治转型
日本专门学校不等于国内专科!这些院校国际认可度远超日本大学!
无人机防范:电子干扰策略
登革热健康教育宣传
《乌合之众》读书心得:群体心理与个体思考
乌合之众是什么影响深远吗(解析群体心理及其社会启示)
在三亚旅行:嗨玩大海,饱览文化,畅游城市
钱放在余额宝里安全吗?把钱放在余额宝,有哪些要注意的?
艺术的力量:《一个国家的诞生》中的表演、摄影和音乐的综合赏析
夏侯惇这么出名,为什么三国之后很少听到“夏侯”这个姓了
掼蛋技巧与文化深度解析,尽在同城游
进藏骑行自行车选购指南:从入门到进阶的全方位建议
C语言的三大基本结构:顺序结构、选择结构和循环结构
产品经理如何鉴定伪需求
如何判断B端真实需求?5大经验技巧
中介服务的标准是什么?这些服务如何保障消费者权益?
委托中介卖房需要签协议吗?这些风险和费用要注意!
大都市观察丨2024年沪京深领跑全国,广州天津排名下滑,提振消费已是重中之重
家常美味升级版:自制辣椒油的秘诀与应用
法国插画艺术家Cosmo Danchin-Hamard:用梦幻色彩讲述女性故事