问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大模型压缩和推理加速

创作时间:

作者:

@小白创作中心

大模型压缩和推理加速

引用

CSDN

1.

https://blog.csdn.net/qq_21201267/article/details/144259091

大模型的压缩和推理加速是当前AI领域的重要研究方向。本文将介绍几种常见的模型压缩方法，如量化、蒸馏、剪枝和稀疏激活，以及推理服务加速技术，如KV Cache和PagedAttention。同时，本文还将介绍一些常用的推理框架，帮助读者更好地理解和应用这些技术。

1. 模型压缩和加速

为了提升推理速度，主要从两个方面进行优化：减少模型尺寸和减少计算操作。

1.1 量化

量化是将浮点数转换为整型数的过程，其公式为：

其中，R是真实的浮点数，Q是量化后的定点数，Z是0浮点数对应的量化值，S是收缩因子，计算公式为：

1.2 蒸馏

蒸馏是一种通过知识转移来压缩模型的方法，其损失函数为：

其中，LSoft是软标签损失，LHard是硬标签损失，α是权重参数。蒸馏过程包括训练教师模型、设计学生模型、获取软标签、加权损失和评估调优等步骤。

1.3 剪枝

剪枝是通过删除不重要的模型参数来减少模型大小，但可能会引起精度损失。一般流程包括训练网络、删除权重值低于阈值的神经元、重新训练网络等步骤。

1.4 稀疏激活

稀疏激活通过减少激活数量来降低计算量和内存占用。混合专家模型（MOE）是一种典型的稀疏激活模型，其中门控网络负责选择合适的专家。常见的稀疏激活模型有悟道2.0、GLaM和Mixtral 8x7B等。

2. 推理服务加速

推理服务加速主要关注减少时间延迟和增加单位时间处理的token数量。

2.1 KV Cache

KV Cache通过缓存K和V信息来减少重复计算，从而提高推理效率。虽然会占用一定的显存资源，但transformers库中的generate()函数已经内置了该技术。

2.2 PagedAttention

PagedAttention是一种在大模型部署框架VLLM中使用的技术，它可以高效地管理多个请求的内存空间。具体来说，它将每个序列的KV缓存分成多个块，并在块的粒度上实现内存共享，从而提高计算效率。

3. 常见推理框架

以下是几种常见的推理框架及其特点：

vLLM：通过PagedAttention技术实现高效的缓存张量管理，比HuggingFace Transformers高14-24倍的吞吐量，兼容OpenAI接口服务，与HuggingFace模型无缝集成。
Text Generation Inference (TGI)：提供模型并行、张量并行和流水线并行等优化技术，适合多种硬件环境下的高效推理。
llama.cpp：专注于本地和云端的LLM推理，支持多种位宽的整数量化，适合CPU推理场景。
MLC LLM：专为手机终端推理设计，支持在Android和iPhone等客户端平台上本地部署LLM。
TensorRT-LLM：NVIDIA基于TensorRT的推理引擎优化框架，支持多种优化技术，如kernel融合、矩阵乘优化和量化感知训练等。
DeepSpeed：微软开源的训练加速库，最新版本提供推理加速能力，通过内存优化、计算优化和通信优化来降低延迟和提升吞吐。
OpenLLM：一个用于生产环境中操作LLM的开放平台，具有良好的社区支持，支持量化和LangChain集成。
FasterTransformer：NVIDIA开发的Transformer模型推理加速框架，支持多种模型和优化技术，针对NVIDIA GPU进行了性能优化。

热门推荐

教育的本质是教人，而不是教书

教育的本质是教人，而不是教书

对虾养殖中，EHP是“绝症”！生物安全，是目前最有效的措施！

对虾养殖中，EHP是“绝症”！生物安全，是目前最有效的措施！

卫生间门设计方案，轻松解决布局尴尬

卫生间门设计方案，轻松解决布局尴尬

薪酬结构优化策略：如何平衡固定与浮动薪酬？

薪酬结构优化策略：如何平衡固定与浮动薪酬？

碧玉的特性与养护方法（探究碧玉能否晒太阳）

碧玉的特性与养护方法（探究碧玉能否晒太阳）

日本恐怖片：文化焦虑的幽魂与现代性的阴影

日本恐怖片：文化焦虑的幽魂与现代性的阴影

【王者荣耀】周瑜：烽火赤壁，掌控火焰的谋略大师与实战攻略

【王者荣耀】周瑜：烽火赤壁，掌控火焰的谋略大师与实战攻略

呼吸抑制是什么意思

呼吸抑制是什么意思

陈寅恪的传奇人生

陈寅恪的传奇人生

罗汉果，一种可以直接食用的神奇水果（罗汉果的功效与禁忌）

罗汉果，一种可以直接食用的神奇水果（罗汉果的功效与禁忌）

后悔不已！早点看到张雪峰的四步专业选择法，我也不至于选错专业

后悔不已！早点看到张雪峰的四步专业选择法，我也不至于选错专业

C语言中大小写字母的转化

C语言中大小写字母的转化

兼爱非攻：探寻墨家思想的现代价值

兼爱非攻：探寻墨家思想的现代价值

多任务学习，在共享层，究竟在共享什么？

多任务学习，在共享层，究竟在共享什么？

凤采鸾章：纪录片《中国》第二季绝美解说词，值得收藏

凤采鸾章：纪录片《中国》第二季绝美解说词，值得收藏

天津私立幼儿园择园避坑指南家长必看

天津私立幼儿园择园避坑指南家长必看

高速夜间行车灯光使用全攻略：远光灯与近光灯的正确切换时机

高速夜间行车灯光使用全攻略：远光灯与近光灯的正确切换时机

爱的长久秘诀：情侣互相付出、满意度与忠诚

爱的长久秘诀：情侣互相付出、满意度与忠诚

张艺谋执导《三体》电影版：机遇与挑战并存

张艺谋执导《三体》电影版：机遇与挑战并存

氨气邂逅水：一场奇妙的化学反应与应用

氨气邂逅水：一场奇妙的化学反应与应用

西门子洗衣机童锁键在哪里，如何关闭？

西门子洗衣机童锁键在哪里，如何关闭？

刘裕掌权后的为政举措与创新改革

刘裕掌权后的为政举措与创新改革

一文读懂：量子算法如何破解现代加密算法？

一文读懂：量子算法如何破解现代加密算法？

开工第一天，送你一份成长攻略

开工第一天，送你一份成长攻略

DPO，RM，RLHF傻傻分不清楚

DPO，RM，RLHF傻傻分不清楚

占用应急车道会受到怎样的处罚？

占用应急车道会受到怎样的处罚？

揭秘：武士英为何要刺杀宋教仁？

揭秘：武士英为何要刺杀宋教仁？

宝可梦：抱着必4决心施展的终焉招式，却容易被当做起点直接白给

宝可梦：抱着必4决心施展的终焉招式，却容易被当做起点直接白给

Excel结算个人所欠款项的详细步骤

Excel结算个人所欠款项的详细步骤

音乐剧《日落大道》上海站：莎拉·布莱曼领衔，韦伯经典重现

音乐剧《日落大道》上海站：莎拉·布莱曼领衔，韦伯经典重现

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号