问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

清华开源MixQ：实现大模型近无损量化并提升推理吞吐

创作时间:

作者:

@小白创作中心

清华开源MixQ：实现大模型近无损量化并提升推理吞吐

引用

CSDN

1.

https://blog.csdn.net/m0_59235699/article/details/143131844

清华大学计算机系PACMAN实验室发布开源混合精度推理系统MixQ，支持8比特和4比特混合精度推理，可实现近无损的量化部署并提升推理的吞吐。MixQ已支持多个主流大模型，包括LLaMA3、Qwen2、Baichuan2和ChatGLM等。

MixQ的技术优势

MixQ的核心优势在于其独特的混合精度推理机制。通过同时量化权重和激活，并使用低精度张量核心（INT8/INT4 Tensor Core）实现推理加速，MixQ能够在保持高推理准确性的同时显著提升系统吞吐量。

图1 MixQ吞吐与已有开源工作比较

混合精度量化的技术原理

混合精度量化的主要思想是将权重和激活矩阵分解为低精度部分和高精度部分。低精度部分使用INT8或INT4存储，而高精度部分（即离群值）则使用FP16存储。这种混合存储方式既保持了高精度计算的准确性，又充分利用了低精度算力的加速优势。

图5 混合精度量化示意图

MixQ的创新优化

MixQ在混合精度量化的基础上进行了多项创新优化：

离群点局部性优化：通过分析发现，不同decode阶段的离群点分布具有规律性。MixQ利用这一特性，避免了重复检测离群点的额外开销。
混合精度数据结构设计：MixQ将离群点“拼接”成新的矩阵，相比传统的重排列方法具有更低的开销。
高性能算子优化：使用NVIDIA提供的CUTLASS 3.x模板，MixQ在寄存器中反量化低精度计算结果并与高精度结果相加，进一步提升了计算效率。

性能表现

实验结果显示，MixQ在LLaMA 70B模型上的表现尤为突出：

在8bit模式下，MixQ的性能是Bitsandbytes的1.9倍。
在4bit模式下，MixQ的性能达到724TFLOPs，是FP16的3.13倍。
在端到端测试中，MixQ在batch=512时相对Bitsandbytes和AWQ分别加速1.78倍和6倍。

图11 MixQ：order-reserved数据结构

应用前景

MixQ的出现为大模型的量化部署提供了新的解决方案。其近无损的量化效果和显著的性能提升，使其在实际应用中具有广阔前景。目前，MixQ已支持多个主流大模型，并在清程极智等AI公司得到实际应用。

这项研究成果已在高性能计算领域顶级国际会议SC’24发表，第一作者为清华大学博士后陈逸东，通讯作者为翟季冬教授。

热门推荐

科学洗手指南：远离疾病，从正确洗手开始

科学洗手指南：远离疾病，从正确洗手开始

妙佑医疗国际推荐：科学洗手防细菌

妙佑医疗国际推荐：科学洗手防细菌

班台医院专家推荐：冬季儿童洗手指南

班台医院专家推荐：冬季儿童洗手指南

山西三日游旅游攻略

山西三日游旅游攻略

跟着梁思成的脚步，探访正定古城的历史建筑

跟着梁思成的脚步，探访正定古城的历史建筑

交通事故后急救费用如何报销？这份攻略请收好！

交通事故后急救费用如何报销？这份攻略请收好！

厂甸庙会：四百年文化传承与创新

厂甸庙会：四百年文化传承与创新

2025北京庙会：传统与科技交融的春节盛宴

2025北京庙会：传统与科技交融的春节盛宴

家长如何助力孩子职业发展：从启蒙到规划

家长如何助力孩子职业发展：从启蒙到规划

科学家庭教育：提升孩子心理健康的基石

科学家庭教育：提升孩子心理健康的基石

掌握亲子沟通小妙招，让爱不再难开口

掌握亲子沟通小妙招，让爱不再难开口

科学育儿：培养独立与心理健康的孩子

科学育儿：培养独立与心理健康的孩子

外籍人士如何“耍”成都？攻略来了

外籍人士如何“耍”成都？攻略来了

广东唯一旅游百强县新兴：靠网友“安利”走红，吸引年轻人返乡创业

广东唯一旅游百强县新兴：靠网友“安利”走红，吸引年轻人返乡创业

冬至大过年！茂名这些传统美食你都吃过吗？

冬至大过年！茂名这些传统美食你都吃过吗？

Nature子刊：王天歌/毕宇芳/王卫庆团队证实，心理健康有助于长寿和健康衰老

Nature子刊：王天歌/毕宇芳/王卫庆团队证实，心理健康有助于长寿和健康衰老

近乎永恒的古代奇迹：埃及金字塔的前世今生

近乎永恒的古代奇迹：埃及金字塔的前世今生

秋冬打卡浙东唐诗之路：天台山

秋冬打卡浙东唐诗之路：天台山

天台山：探访台州最美自然景观

天台山：探访台州最美自然景观

北京急救中心教你正确拨打120：从急救到医保全攻略

北京急救中心教你正确拨打120：从急救到医保全攻略

等额本息还款：家庭理财的双刃剑

等额本息还款：家庭理财的双刃剑

最新LPR利率下调！等额本息还款这样算最划算

最新LPR利率下调！等额本息还款这样算最划算

北京房贷利率再降！等额本息还款大变天

北京房贷利率再降！等额本息还款大变天

双十二购房攻略：等额本息还款法适合你吗？

双十二购房攻略：等额本息还款法适合你吗？

急救医疗保障：医院急诊费用的真相揭秘

急救医疗保障：医院急诊费用的真相揭秘

中国历史文化名镇——嵩口古镇，古色古香，诗情画意的慢时光

中国历史文化名镇——嵩口古镇，古色古香，诗情画意的慢时光

年味十足|春节美食大赏来啦！

年味十足|春节美食大赏来啦！

西安三天两晚游最佳攻略

西安三天两晚游最佳攻略

茌平到郑州自驾游：车辆检查全攻略

茌平到郑州自驾游：车辆检查全攻略

川菜：成都美食文化的DNA

川菜：成都美食文化的DNA

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号