4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级
创作时间:
作者:
@小白创作中心
4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级
引用
1
来源
1.
https://m.php.cn/faq/1159401.html
清华大学陈键飞团队推出SageAttention2:实现4-bit即插即用注意力机制,显著提升大模型推理速度
近年来,AIxiv专栏持续报道全球顶尖AI研究成果。该专栏已发表2000余篇学术技术文章,涵盖众多高校和企业实验室的先进研究。
论文共同一作张金涛和黄浩峰分别来自清华大学计算机系和交叉信息研究院,通讯作者陈键飞副教授及其他合作者均来自清华大学计算机系。
大模型线性层的低比特量化已日趋成熟,但注意力模块仍普遍采用高精度计算(如FP16或FP32),尤其在长序列处理中,注意力机制的计算成本日益突出。
此前,陈键飞团队提出的8-bit即插即用注意力机制SageAttention,通过将QK^T量化至INT8,保持PV精度为FP16,并结合Smooth K技术,实现了2倍于FlashAttention2的速度提升,同时保持了端到端精度。SageAttention已广泛应用于CogvideoX、Mochi、Flux、Llama3、Qwen等开源及商业大模型。
最新研究成果SageAttention2进一步将注意力机制量化至4-bit,相较于FlashAttention2和xformers分别实现了3倍和4.5倍的即插即用推理加速,并同样在各种大模型上保持了端到端精度。
- 论文标题:SageAttention2: Efficient Attention with Thorough Outlier Smoothing and Per-thread INT4 Quantization
- 论文链接:https://www.php.cn/link/8928157317a66f146e4f2d5617537336
- 开源代码:https://www.php.cn/link/8928157317a66f146e4f2d5617537336
即插即用特性
SageAttention2提供高效的注意力算子,实现即插即用加速。只需输入Q, K, V矩阵,即可快速获得注意力输出(O)。克隆仓库并执行以下命令:
git clone https://www.php.cn/link/8928157317a66f146e4f2d5617537336
python setup.py install
后,一行代码即可替换模型中的注意力函数:
以CogvideoX-1.5-5B为例,SageAttention2实现了1.8倍的端到端加速,且视频生成质量无损:
SageAttention2还扩展了硬件支持,在不同GPU平台上均有显著加速效果。
热门推荐
村卫生室为啥要配备药品阴凉柜
酒石酸唑吡坦片怎么吃
数据库建表如何备注
1963年属兔是什么命?详解癸卯年水兔之命运
如何分析公司业绩对股票价格的影响
大理石断裂了怎样修复
零实习经验毕业生如何将校园经历替代实习经历?
探寻味蕾的极致之旅:揭秘经典川菜——麻婆豆腐的魅力与制作秘籍
如何应用波浪理论分析市场
18650锂电池并联注意事项
犯罪形态梳理报告的撰写方法与实务指南
海南社保卡使用指南:功能、福利、常见问题及办理流程详解
科学减肥法全攻略:膳食、运动与心理,你达标了吗?💪
余华作品《活着》:生命与死亡的深刻思考
法院判例:丧葬费不是遗产,分配时候如何分?儿子多分有依据吗?
飞秒激光及超快/超强科学解决方案(上)
心肌酶谱及心功能检验报告结果解读
冰晶菜的种植时间及栽培方法
项目目标三要素:如何有效设定项目目标来确保成功?
关注健康:职业治疗——手部劳损
石油开采中的封堵技术:原理、应用与前沿进展
如何有效谈判店铺转让?这种谈判策略有哪些潜在风险?
手把手教你用网络测试仪:自动化测试脚本与安全攻击模拟技巧
德意热水器故障码R12是什么意思?
斐波那契数列的算法优化:实现超高速计算
银行票据业务的转贴现与再贴现操作?
笔记本独显的作用是什么?独立显卡对设计本有何好处?
留学生如何拓展社交圈与建立积极人际关系
EPC合同内容修改:合同条款调整与协商技巧
2024全球人工智能实力排名:美国遥居榜首,中国紧随其后