LLM:Flash-Attention技术详解
创作时间:
作者:
@小白创作中心
LLM:Flash-Attention技术详解
引用
CSDN
1.
https://blog.csdn.net/qq_43814415/article/details/140875412
FlashAttention是一种优化Transformer模型注意力机制的技术,旨在提升计算效率和降低内存消耗,尤其在处理长序列任务时。本文将详细介绍FlashAttention的核心技术、版本更新及其实际应用。
核心技术
分块计算 (Tiling)
FlashAttention通过将注意力计算的矩阵分块,将大矩阵拆分成适合存储在片上内存(SRAM)的较小块。这样减少了对全局内存(HBM)的依赖,降低了内存带宽的需求。这种方法有效地利用了现代GPU的多层次内存结构,优化了数据的访问速度。重计算 (Recomputation)
在传统注意力机制中,中间结果的存储往往占用大量内存。FlashAttention通过在需要时重新计算部分结果,而不是存储整个矩阵,从而减少了内存占用。这种策略特别在反向传播过程中显著减少了内存需求。IO感知 (IO-Awareness)
FlashAttention优化了数据传输路径,减少了从全局内存到片上内存的数据移动。它通过有序地组织和处理数据,最大限度地利用了硬件资源,提高了整体计算效率。
版本更新
- FlashAttention-2
- 并行性增强:除了传统的基于批大小和头数的并行处理外,FlashAttention-2还引入了序列长度上的并行性。这对于长序列、批量较小的情况非常有利,能够显著提高计算速度。
- 支持更多头维度:从最多支持128个头维度扩展到256个,适配如GPT-J、CodeGen等大模型。这使得FlashAttention-2能够在更广泛的场景下应用,特别是需要高精度和长上下文的任务中。
- 多查询注意力 (MQA) 和分组查询注意力 (GQA):这些变体在推理时减少了键值(KV)缓存的大小,从而提高了推理吞吐量。
- FlashAttention-3
- 新硬件支持:利用最新的NVIDIA Hopper GPU架构,采用WGMMA(Warpgroup Matrix Multiply-Accumulate)和TMA(Tensor Memory Accelerator)等新特性。相比前一版本,FP16精度下性能提升至740 TFLOPS,而FP8精度下更是达到1.2 PFLOPS,且FP8的误差降低了2.6倍。
- 异步操作:通过异步执行GEMM和softmax操作,提高了整体吞吐量。例如,FP16的前向传递从570 TFLOPS提升到620 TFLOPS,进一步达到640-660 TFLOPS。
参考资料
热门推荐
烟瘾是什么 戒烟后的症状有哪些 戒烟最好的方法
思念怀念想念的区别是什么
夕阳摄影完整指南,无论专业摄影师还是摄影爱好者,都会从中受益
一文把MPAcc和MPA异同全部讲清楚!快收藏
国内天然橡胶生产胶种结构分析:全乳产量有望微增,非交割品产量下滑
《哪吒2》突破百亿票房:万人问卷调查揭示观众真实看法
为什么戴隐形眼镜要注意卫生?
湖人对阵雷霆:纸面实力深度解析
生物反应器在生物制药领域的应用
微信视频过期了?这些方法可能帮你恢复
ANSYS Workbench瞬态结构分析(2)时域分析和频域分析
如何确定购房的合适时机?市场条件和个人财务状况如何相互影响?
RWA智能合约开发面临的挑战
科学饮食,打造健康体魄
离职公司不给转社保应该如何办手续
有骨雨刷和无骨雨刷有什么区别?哪个更好用?
靶向治疗让肺癌“治愈”更近一步!延长、放大疗效这两方面都很关键
这个药不知道什么时候吃?盘点常见药物服用时间
短视频是如何一步步“吃掉”我们大脑的?
人工智能如何影响到UI的设计
高危MDS治疗探索:免疫治疗和靶向治疗新进展
派克51墨水笔:它收藏了历史
课题成功的秘诀:“选题要新”和“精准破题”
护理学招生“遇冷”,从业门槛为何却变高了?
铲屎官必看:如何为猫咪挑选合适的罐头食品?
电风扇功率对风力大小的影响及选购建议
午睡新研究:白天多睡1小时,老年痴呆风险或增加40%?
分手后的心理解析:谁的痛苦周期更长?
360度评估:全面考量,深入洞察,追求最佳效果
网友建议女性列车员裙装改裤装,12306回应