LLM:Flash-Attention技术详解
创作时间:
作者:
@小白创作中心
LLM:Flash-Attention技术详解
引用
CSDN
1.
https://blog.csdn.net/qq_43814415/article/details/140875412
FlashAttention是一种优化Transformer模型注意力机制的技术,旨在提升计算效率和降低内存消耗,尤其在处理长序列任务时。本文将详细介绍FlashAttention的核心技术、版本更新及其实际应用。
核心技术
分块计算 (Tiling)
FlashAttention通过将注意力计算的矩阵分块,将大矩阵拆分成适合存储在片上内存(SRAM)的较小块。这样减少了对全局内存(HBM)的依赖,降低了内存带宽的需求。这种方法有效地利用了现代GPU的多层次内存结构,优化了数据的访问速度。重计算 (Recomputation)
在传统注意力机制中,中间结果的存储往往占用大量内存。FlashAttention通过在需要时重新计算部分结果,而不是存储整个矩阵,从而减少了内存占用。这种策略特别在反向传播过程中显著减少了内存需求。IO感知 (IO-Awareness)
FlashAttention优化了数据传输路径,减少了从全局内存到片上内存的数据移动。它通过有序地组织和处理数据,最大限度地利用了硬件资源,提高了整体计算效率。
版本更新
- FlashAttention-2
- 并行性增强:除了传统的基于批大小和头数的并行处理外,FlashAttention-2还引入了序列长度上的并行性。这对于长序列、批量较小的情况非常有利,能够显著提高计算速度。
- 支持更多头维度:从最多支持128个头维度扩展到256个,适配如GPT-J、CodeGen等大模型。这使得FlashAttention-2能够在更广泛的场景下应用,特别是需要高精度和长上下文的任务中。
- 多查询注意力 (MQA) 和分组查询注意力 (GQA):这些变体在推理时减少了键值(KV)缓存的大小,从而提高了推理吞吐量。
- FlashAttention-3
- 新硬件支持:利用最新的NVIDIA Hopper GPU架构,采用WGMMA(Warpgroup Matrix Multiply-Accumulate)和TMA(Tensor Memory Accelerator)等新特性。相比前一版本,FP16精度下性能提升至740 TFLOPS,而FP8精度下更是达到1.2 PFLOPS,且FP8的误差降低了2.6倍。
- 异步操作:通过异步执行GEMM和softmax操作,提高了整体吞吐量。例如,FP16的前向传递从570 TFLOPS提升到620 TFLOPS,进一步达到640-660 TFLOPS。
参考资料
热门推荐
脚气大作战:怎么才能彻底告别复发?
大数据如何设计数据库
睡眠质量差增加心脏肥大的风险
奥克兰房产吸引力不逊于悉尼 百万街区已超三分之一
王阳明:心外无物,人活一世,到底是为了什么?
中国绘制世界地图之先例,《坤舆万国全图》背后的文化密码
偷感很重!这鸟怎么打着一把“伞”捕鱼?
部分海外影院《哪吒2》日排片超《美队4》 周末黄金档IMAX厅影票几乎售空
销售管理中如何促销
毛泽东与胡适:曾经亦师亦友,后来渐行渐远
如何计算公司买车抵税的情况?这种计算方式存在哪些影响因素?
网民律师郭建梅疑案结案:网络舆论下的法治进程
秦始皇的四大历史功绩:统一中国背后的深远影响
摩擦力的方向及产生条件
RTU远程终端控制系统的作用和应用
糖尿病患者能喝果汁吗?专家给出专业解答
你了解外企吗? —— 外企程序员
从报名到上岸:事业单位与公务员考试内容全解析
无尽冬日攻略:八大方法快速扩充幸存者队伍
塔罗牌入门教程:从准备到解读的完整指南
假身份登记结婚是否有效
STM32最小系统搭建(原理图)
“混动+增程”拉爆新能源车市,专家却说纯电更可期?
1:5.4X!新币兑人民币汇率强势反弹,10年涨超17%!未来走势分析来了~
秋葵真的能降血压、降血糖吗?真相在这里
财务报表有哪些种类
螳臂当车:从成语典故到现代启示
专业不对口也可以投简历?跨专业求职指南来了
光刻机概念爆发,消费板块低迷,低估值优质股迎布局良机
感染疾病高发季节,我们应该怎样保护孩子和自己