资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

LLM性能优化技巧全解析

创作时间:

作者:

@小白创作中心

LLM性能优化技巧全解析

引用

CSDN

https://blog.csdn.net/star_nwe/article/details/144786071

本文详细介绍了LLM性能优化的各种技巧，包括MHA结构优化、MHA工程优化、FFN部分优化、微调、训练相关和推理相关等。这些优化方法可以帮助开发者在保持模型性能的同时，降低计算和存储成本，提高模型的运行效率。

一、MHA结构优化（效果有损）

KV Cache的大小取决于模型大小（dim和layers）和序列长度。为了支持更大的模型或更长的序列，需要对kv进行压缩。以下是几种常见的MHA参数量压缩方法：

MQA（Multi-Query Attention）

多组Q，共享K、V，将KV Cache减少到原来的1/h。
通常会相应增大FFN/GLU的规模以弥补效果损失。
使用MQA的模型包括PaLM、Gemini等。

GQA（Grouped-Query Attention）

是MQA和MHA的折中方案。
使用GQA的有LLaMA 2、Code LLaMA等。

MLA（Multi-head Latent Attention）

DeepSeek-V2使用低秩投影压缩KV Cache的大小。
示例见下图右侧：

SWA（sliding window attention）

每个位置只能往前看N个输入，本质上是一种sparse attention。
通过Rolling Buffer Cache实现内存控制。
Mistral 7B使用SWA，具有4096的window_size。

线性 attention

处理长序列时具有线性时间复杂度。
方案：将softmax变成sim(q,k)，使用核函数phi(q)和phi(k)。
RWKV是线性attention的一个变种，类似RNN。

二、MHA工程优化（效果无损）

KV cache

利用Decoder only特性，保留每次前向计算的KV用于后续计算。

online softmax
Flash attention

通过分块计算减少HBM访问次数，利用SRAM速度优势。
传统attention流程需要多次读写显存，Flash Attention通过分块计算减少显存访问。
依赖于GPU架构（A100以上）。

Page attention

类似虚拟内存分页，每个block默认大小为16。
通过写时复制机制优化内存使用，可降低55%的内存使用量。
vLLM使用PagedAttention实现高达24倍的Throughput提升。

Ring attention

解决长序列内存限制问题，通过多卡协作实现超长context length。

striped attention

Ring Attention的扩展，解决工作负载不平衡问题。

三、FFN部分的优化

MoE

近2/3的参数集中在FFN结构中。
MLP压缩了大量知识，适合稀疏化处理。

四、微调

有多种微调方式，如Freeze-tuning、Adapter Tuning、Prefix-Tuning、P-Tuning、LoRA等。
LoRA使用较多，如72B微调可选择量化4bit、lora_dim = 64。

五、训练相关

混合精度

使用FP16进行前向和反向传播，FP32进行权重更新。
可以显著提高训练速度，同时保留99%的训练精度。

并行、调度、训练框架

包括数据并行、模型并行、流水线并行、张量并行。
相关框架有Huggingface Transformer、deepspeed、megatron。

Megatron LM

使用模型并行（层内切分）和pipeline并行（层间切分）。
优点是修改简单，但只适用于transformers。

ZeRO

超线性加速技术，支持100B模型。
通过将optimizer state、梯度、参数等分片存储在不同GPU上，实现大规模模型训练。

offload

将计算量高的部分（如参数W、activation）放在GPU，计算量低的部分（如update）放在CPU。
ZeRO-Infinity进一步利用NVMe空间。

六、推理相关

量化
投机推理：通过更小模型提前预测后续token，提高decode并行度。

本文详细介绍了LLM性能优化的各种技巧，包括MHA结构优化、MHA工程优化、FFN部分优化、微调、训练相关和推理相关等。这些优化方法可以帮助开发者在保持模型性能的同时，降低计算和存储成本，提高模型的运行效率。

热门推荐

跟着诗词去旅行

超过70岁的老人，宁愿喝粥吃馒头，也别吃这4样

从颐和园到玉渊潭：北京13处春日赏花胜地推荐

延庆世园公园：五大场馆演绎园艺盛宴

北京世园公园：六大核心场馆展现园艺文化魅力

老人饮食注意事项：哪些食物最适合银发族？

伊瓜苏瀑布：期待中国游客探索的巴西奇观

“公园20分钟效应”真的管用！多接触大自然好处不止“亿点点”

娃娃机暗藏玄机更透明的行业规则亟待建立

宁波的“娃娃店”内有“问题娃娃”吗?来看记者调查

法官说法 | 你抓的“娃娃”很可能侵权了!

后世如何评价曹操？史料中是如何记载的？

三国杀名将传魏国阵容搭配攻略：精选最强武将组合推荐

美诺团建 vs 黄埔铁军：谁更能提升团队精神？

无牙老人必备食谱大全：软嫩美味，营养满分！

汕头5天旅游攻略，跟着小纤走遍潮汕美景

汕头小公园&妈祖文化园：两颗明珠映照潮汕文化

中老年人该如何保护好自己的牙齿？“科技志愿服务边疆行”口腔专家下区县来答疑

家里老人牙齿掉了怎么补？树脂修补|义齿修复|全口或全口义齿适应不同牙齿情况！

滑雪入门完全指南：三大雪场攻略与安全要点

牙齿不好的人可以吃什么？这两道菜色香味俱全，连老人都能轻松享用！

四川冬游攻略：雪山温泉佛国，六大特色景点全收录

从京剧滑雪到国产装备：中国冰雪运动的传统文化新表达

元代“玩芳亭”遗址上建起万芳亭公园

世园公园花灯艺术节升级，360度光影秀展现家乡美

北京世园公园：94把“花伞”下的国际园艺盛会