4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级
创作时间:
作者:
@小白创作中心
4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级
引用
1
来源
1.
https://m.php.cn/faq/1159401.html
清华大学陈键飞团队推出SageAttention2:实现4-bit即插即用注意力机制,显著提升大模型推理速度
近年来,AIxiv专栏持续报道全球顶尖AI研究成果。该专栏已发表2000余篇学术技术文章,涵盖众多高校和企业实验室的先进研究。
论文共同一作张金涛和黄浩峰分别来自清华大学计算机系和交叉信息研究院,通讯作者陈键飞副教授及其他合作者均来自清华大学计算机系。
大模型线性层的低比特量化已日趋成熟,但注意力模块仍普遍采用高精度计算(如FP16或FP32),尤其在长序列处理中,注意力机制的计算成本日益突出。
此前,陈键飞团队提出的8-bit即插即用注意力机制SageAttention,通过将QK^T量化至INT8,保持PV精度为FP16,并结合Smooth K技术,实现了2倍于FlashAttention2的速度提升,同时保持了端到端精度。SageAttention已广泛应用于CogvideoX、Mochi、Flux、Llama3、Qwen等开源及商业大模型。
最新研究成果SageAttention2进一步将注意力机制量化至4-bit,相较于FlashAttention2和xformers分别实现了3倍和4.5倍的即插即用推理加速,并同样在各种大模型上保持了端到端精度。
- 论文标题:SageAttention2: Efficient Attention with Thorough Outlier Smoothing and Per-thread INT4 Quantization
- 论文链接:https://www.php.cn/link/8928157317a66f146e4f2d5617537336
- 开源代码:https://www.php.cn/link/8928157317a66f146e4f2d5617537336
即插即用特性
SageAttention2提供高效的注意力算子,实现即插即用加速。只需输入Q, K, V矩阵,即可快速获得注意力输出(O)。克隆仓库并执行以下命令:
git clone https://www.php.cn/link/8928157317a66f146e4f2d5617537336
python setup.py install
后,一行代码即可替换模型中的注意力函数:
以CogvideoX-1.5-5B为例,SageAttention2实现了1.8倍的端到端加速,且视频生成质量无损:
SageAttention2还扩展了硬件支持,在不同GPU平台上均有显著加速效果。
热门推荐
网红“云南阿奎”猝死,我们该如何保护自己?
网红阿奎因脑溢血离世,专家揭秘背后真相
微信支付宝教你轻松搞定养老金认证!
南昌创新“无感化”认证模式,11万退休职工足不出户完成养老金资格认证
社保局最新政策:养老金资格认证大揭秘!
故宫里的五爪龙:皇权的秘密
五爪金龙:帝王专属的霸气图腾
用模仿学习法培养孩子好习惯:理论与实践指南
《幽行玄城》:道士抓鬼新体验
游戏化模仿学习:学霸养成记
谢可寅《珠帘玉幕》:从Rapper到演员的转型之路
《珠帘玉幕》:谢可寅与赵露思的“双向救赎”为何打动人心?
金钱肚三种经典做法:泡椒香辣、小炒、黄焖
酒店预订系统如何抵御最新网络威胁?
百年老字号“范合盛”:一块月饼里的匠心传承
警惕!这些“巧克力”可能是新型毒品
查尿酸是验血还是验尿?痛风专家黄川云告诉你!
古洁若:高尿酸血症及痛风的过去、现在和未来
中国饭店协会发布八大攻略,助力酒店业筑牢数据安全防线
你的酒店预订信息真的安全吗?
揭秘:酒店订房系统的隐私黑科技!
立春防病指南:如何远离春季常见病?
立春后气温回暖?看看这三大物候就知道了!
谢可寅巴黎时装周惊艳亮相,许佳琪新造型展现A飒魅力
自然资源管理是什么
从先秦时期到明清时期,中国古代土地制度特点及其演变规律
NBA vs NFL:天赋、薪资和职业生涯的终极比较
《知乎版十万个为什么》教你如何应对陌生人给的食物
如何选购高效液压挖掘机?这份指南请收好!
登山遇险?这些自救技巧关键时刻能救命!