LLM性能优化技巧全解析
创作时间:
作者:
@小白创作中心
LLM性能优化技巧全解析
引用
CSDN
1.
https://blog.csdn.net/star_nwe/article/details/144786071
本文详细介绍了LLM性能优化的各种技巧,包括MHA结构优化、MHA工程优化、FFN部分优化、微调、训练相关和推理相关等。这些优化方法可以帮助开发者在保持模型性能的同时,降低计算和存储成本,提高模型的运行效率。
一、MHA结构优化(效果有损)
KV Cache的大小取决于模型大小(dim和layers)和序列长度。为了支持更大的模型或更长的序列,需要对kv进行压缩。以下是几种常见的MHA参数量压缩方法:
- MQA(Multi-Query Attention)
- 多组Q,共享K、V,将KV Cache减少到原来的1/h。
- 通常会相应增大FFN/GLU的规模以弥补效果损失。
- 使用MQA的模型包括PaLM、Gemini等。
- GQA(Grouped-Query Attention)
- 是MQA和MHA的折中方案。
- 使用GQA的有LLaMA 2、Code LLaMA等。
- MLA(Multi-head Latent Attention)
- DeepSeek-V2使用低秩投影压缩KV Cache的大小。
- 示例见下图右侧:
- SWA(sliding window attention)
- 每个位置只能往前看N个输入,本质上是一种sparse attention。
- 通过Rolling Buffer Cache实现内存控制。
- Mistral 7B使用SWA,具有4096的window_size。
- 线性 attention
- 处理长序列时具有线性时间复杂度。
- 方案:将softmax变成sim(q,k),使用核函数phi(q)和phi(k)。
- RWKV是线性attention的一个变种,类似RNN。
二、MHA工程优化(效果无损)
- KV cache
- 利用Decoder only特性,保留每次前向计算的KV用于后续计算。
online softmax
Flash attention
- 通过分块计算减少HBM访问次数,利用SRAM速度优势。
- 传统attention流程需要多次读写显存,Flash Attention通过分块计算减少显存访问。
- 依赖于GPU架构(A100以上)。
- Page attention
- 类似虚拟内存分页,每个block默认大小为16。
- 通过写时复制机制优化内存使用,可降低55%的内存使用量。
- vLLM使用PagedAttention实现高达24倍的Throughput提升。
- Ring attention
- 解决长序列内存限制问题,通过多卡协作实现超长context length。
- striped attention
- Ring Attention的扩展,解决工作负载不平衡问题。
三、FFN部分的优化
- MoE
- 近2/3的参数集中在FFN结构中。
- MLP压缩了大量知识,适合稀疏化处理。
四、微调
- 有多种微调方式,如Freeze-tuning、Adapter Tuning、Prefix-Tuning、P-Tuning、LoRA等。
- LoRA使用较多,如72B微调可选择量化4bit、lora_dim = 64。
五、训练相关
- 混合精度
- 使用FP16进行前向和反向传播,FP32进行权重更新。
- 可以显著提高训练速度,同时保留99%的训练精度。
- 并行、调度、训练框架
- 包括数据并行、模型并行、流水线并行、张量并行。
- 相关框架有Huggingface Transformer、deepspeed、megatron。
- Megatron LM
- 使用模型并行(层内切分)和pipeline并行(层间切分)。
- 优点是修改简单,但只适用于transformers。
- ZeRO
- 超线性加速技术,支持100B模型。
- 通过将optimizer state、梯度、参数等分片存储在不同GPU上,实现大规模模型训练。
- offload
- 将计算量高的部分(如参数W、activation)放在GPU,计算量低的部分(如update)放在CPU。
- ZeRO-Infinity进一步利用NVMe空间。
六、推理相关
- 量化
- 投机推理:通过更小模型提前预测后续token,提高decode并行度。
本文详细介绍了LLM性能优化的各种技巧,包括MHA结构优化、MHA工程优化、FFN部分优化、微调、训练相关和推理相关等。这些优化方法可以帮助开发者在保持模型性能的同时,降低计算和存储成本,提高模型的运行效率。
热门推荐
跟着诗词去旅行
超过70岁的老人,宁愿喝粥吃馒头,也别吃这4样
从颐和园到玉渊潭:北京13处春日赏花胜地推荐
延庆世园公园:五大场馆演绎园艺盛宴
北京世园公园:六大核心场馆展现园艺文化魅力
老人饮食注意事项:哪些食物最适合银发族?
伊瓜苏瀑布:期待中国游客探索的巴西奇观
“公园20分钟效应”真的管用!多接触大自然好处不止“亿点点”
娃娃机暗藏玄机 更透明的行业规则亟待建立
宁波的“娃娃店”内有“问题娃娃”吗?来看记者调查
法官说法 | 你抓的“娃娃”很可能侵权了!
后世如何评价曹操?史料中是如何记载的?
三国杀名将传魏国阵容搭配攻略:精选最强武将组合推荐
美诺团建 vs 黄埔铁军:谁更能提升团队精神?
车间管理神器,提升团队战斗力
团队管理新姿势:明确目标提士气
福合埕牛肉丸:一颗丸子的百年传奇
牙齿没了怎么办?老年人镶牙有三个选择
无牙老人必备食谱大全:软嫩美味,营养满分!
汕头5天旅游攻略,跟着小纤走遍潮汕美景
汕头小公园&妈祖文化园:两颗明珠映照潮汕文化
中老年人该如何保护好自己的牙齿?“科技志愿服务边疆行”口腔专家下区县来答疑
家里老人牙齿掉了怎么补?树脂修补|义齿修复|全口或全口义齿适应不同牙齿情况!
滑雪入门完全指南:三大雪场攻略与安全要点
牙齿不好的人可以吃什么?这两道菜色香味俱全,连老人都能轻松享用!
四川冬游攻略:雪山温泉佛国,六大特色景点全收录
从京剧滑雪到国产装备:中国冰雪运动的传统文化新表达
元代“玩芳亭”遗址上建起万芳亭公园
世园公园花灯艺术节升级,360度光影秀展现家乡美
北京世园公园:94把“花伞”下的国际园艺盛会