LLM:Flash-Attention技术详解
创作时间:
作者:
@小白创作中心
LLM:Flash-Attention技术详解
引用
CSDN
1.
https://blog.csdn.net/qq_43814415/article/details/140875412
FlashAttention是一种优化Transformer模型注意力机制的技术,通过分块计算、重计算和IO感知等核心技术,显著提升了计算效率和降低了内存消耗。本文将详细介绍FlashAttention的技术原理、版本更新及其在实际应用中的优势。
核心技术
分块计算 (Tiling)
FlashAttention通过将注意力计算的矩阵分块,将大矩阵拆分成适合存储在片上内存(SRAM)的较小块。这样减少了对全局内存(HBM)的依赖,降低了内存带宽的需求。这种方法有效地利用了现代GPU的多层次内存结构,优化了数据的访问速度【10†source】【13†source】。重计算 (Recomputation)
在传统注意力机制中,中间结果的存储往往占用大量内存。FlashAttention通过在需要时重新计算部分结果,而不是存储整个矩阵,从而减少了内存占用。这种策略特别在反向传播过程中显著减少了内存需求【10†source】。IO感知 (IO-Awareness)
FlashAttention优化了数据传输路径,减少了从全局内存到片上内存的数据移动。它通过有序地组织和处理数据,最大限度地利用了硬件资源,提高了整体计算效率【13†source】。
版本更新
- FlashAttention-2
- 并行性增强:除了传统的基于批大小和头数的并行处理外,FlashAttention-2还引入了序列长度上的并行性。这对于长序列、批量较小的情况非常有利,能够显著提高计算速度。
- 支持更多头维度:从最多支持128个头维度扩展到256个,适配如GPT-J、CodeGen等大模型。这使得FlashAttention-2能够在更广泛的场景下应用,特别是需要高精度和长上下文的任务中【12†source】。
- 多查询注意力 (MQA) 和分组查询注意力 (GQA):这些变体在推理时减少了键值(KV)缓存的大小,从而提高了推理吞吐量【12†source】。
- FlashAttention-3
- 新硬件支持:利用最新的NVIDIA Hopper GPU架构,采用WGMMA(Warpgroup Matrix Multiply-Accumulate)和TMA(Tensor Memory Accelerator)等新特性。相比前一版本,FP16精度下性能提升至740 TFLOPS,而FP8精度下更是达到1.2 PFLOPS,且FP8的误差降低了2.6倍【11†source】【14†source】。
- 异步操作:通过异步执行GEMM和softmax操作,提高了整体吞吐量。例如,FP16的前向传递从570 TFLOPS提升到620 TFLOPS,进一步达到640-660 TFLOPS【11†source】。
参考资料
【Flash Attention为什么那么快?原理讲解】
https://www.bilibili.com/video/BV1UT421k7rA/?share_source=copy_web&vd_source=29af710704ae24d166ca951b4c167d53
热门推荐
探秘洞庭湖:岳阳最美自然景观自驾游攻略
岳阳楼自驾游攻略:打卡江南第一楼,尽享洞庭湖畔美景
春节自驾游郑州必打卡景点推荐
如何帮助孩子克服恐惧:从理解到行动的完整指南
保温杯保养技巧:延长使用寿命的关键
探究纯钛养生杯的适用范围:泡茶是否安全及更多使用注意事项
广东人竟然把这道菜叫“鬼佬肉”?
菠萝咕咾肉,家常版超简单!
日常生活中如何科学消毒之“十问十答”(下)
新主播快速成长,需了解十六个基础问题(建议收藏)
春节自驾游必打卡:新疆阿禾公路
春节自驾游云南,如何拍出朋友圈爆片?
用温暖短信助力朋友术后康复
术后病人暖心问候:助你快速康复
《护理中的人文关怀》教你写术后暖心短信
川菜白斩鸡:麻辣鲜香中的匠心传承
《川菜大全》推荐:白斩鸡完美教程
乐山白斩鸡PK崇州天主堂鸡片,谁才是正宗?
杰森·斯坦森在三亚湾揭秘《巨齿鲨》科学真相
巨齿鲨灭绝之谜:最新科研发现揭示新线索
上海书展丨保护利用历史建筑有哪些“上海经验”?
岁月与创新交汇:微更新重塑城市灵魂
超大特大城市更新中旧区改造的规划策略探索
吕青医生:用爱守护乳腺癌手术病人
剑河温泉:春秋两季的最美邂逅
剑河温泉:冬日养生的温暖之选
仰阿莎湖:黔东南的璀璨明珠,湖光山色与苗族文化的完美融合
剑河温泉与化石探秘,你更爱哪个?
贵州黔东南剑河县:磻溪瀑布 vs 百里原始阔叶林,谁更美?
《孙子兵法》在现代战争与商战中的创新应用