神经网络模型量化技术详解:从基础概念到实践应用
创作时间:
作者:
@小白创作中心
神经网络模型量化技术详解:从基础概念到实践应用
引用
CSDN
1.
https://blog.csdn.net/qq_37424778/article/details/139854969
模型量化是深度学习中一种优化技术,旨在减少模型的计算和存储需求,同时尽量保持模型的性能。具体来说,模型量化通过将模型的权重和激活值从高精度(通常是32位浮点数)缩减到较低精度(如16位、8位甚至更低的整数),从而减少计算复杂度和内存占用。
模型量化具有以下优点:
- 减少存储需求:低精度表示可以显著减少模型的存储空间。
- 加速推理速度:低精度计算通常比高精度计算更快,特别是在支持低精度运算的硬件上。
- 降低功耗:减少计算复杂度和内存访问次数,可以降低功耗,这对于移动和嵌入式设备尤为重要。
模型量化方法分类
按量化参数分类
- 动态量化:在模型推理时对部分权重和激活值进行量化。具体来说,模型的权重在推理前保持为浮点数,在推理时将其动态转换为低精度(如8位整数)进行计算。激活值在推理过程中也会动态地从浮点数转换为低精度值。
- 静态量化:目标是求取量化比例因子,主要通过对称量化、非对称量化方式来求,而找到最大值或阈值的方法有MinMax、KLD、ADMM、EQ等方法。
按量化时间分类
- 训练后量化(PTQ):在模型训练完成后进行量化,不需要重新训练模型。KL散度方法:通过计算原Float32与量化后的参数分布,得到最优。
- 量化感知训练(QAT):是一种在模型训练过程中引入量化操作的技术。通过在训练阶段模拟量化误差,模型能够学习并适应量化带来的精度损失,从而在量化后依然保持较高的准确性。
QAT与PTQ区别
- 训练中量化:QAT,精度高,复杂;训练后量化:PTQ,精度略低,简单。
- 训练后量化 PTQ:它是使用一批校准数据对训练好的模型进行校准, 将训练过的FP32网络直接转换为定点计算的网络,过程中无需对原始模型进行任何训练。只对几个超参数调整就可完成量化过程, 且过程简单快速, 无需训练, 因此此方法已被广泛应用于大量的端侧和云侧部署场景, 优先推荐您尝试PTQ方法来查看是否满足您的部署精度和性能要求 。
- 量化感知训练 QAT:它是将训练过的模型量化后又再进行重训练。由于定点数值无法用于反向梯度计算,实际操作过程是在某些op前插入伪量化节点(fake quantization nodes), 用于在训练时获取流经该op的数据的截断值,便于在部署量化模型时对节点进行量化时使用。我们需要在训练中通过不断优化精度来获取最佳的量化参数。由于它需要对模型进行训练, 对操作人员技术要求较高。
QAT/PTQ量化与静态/动态量化的区别
PTQ(Post-Training Quantization,训练后量化)和QAT(Quantization-Aware Training,量化感知训练)主要是量化方法,而静态量化和动态量化是量化策略。
训练后量化(PTQ)
- 静态量化:PTQ可以用于静态量化,即在量化时使用一组校准数据来确定量化参数(如缩放因子和零点),并在推理时使用这些预先计算的量化参数。
- 动态量化:PTQ也可以用于动态量化,即在推理时根据输入数据动态地确定量化参数。这种方法通常用于激活值的量化,而权重通常在量化后保持静态。
量化感知训练(QAT)
- 静态量化:QAT通常用于静态量化,即在训练过程中模拟量化误差,并在训练完成后使用固定的量化参数进行推理。由于模型已经适应了这些量化参数,推理时可以直接使用预先计算的量化参数,达到高效推理的效果。
- 动态量化:QAT一般不用于动态量化,因为动态量化主要是在推理时动态确定量化参数,而QAT的核心在于训练过程中模拟和适应量化误差。
总结
- PTQ:可以用于静态量化和动态量化。静态量化使用预先计算的量化参数,动态量化在推理时动态确定量化参数。
- QAT:主要用于静态量化,通过在训练过程中模拟量化误差,使模型适应固定的量化参数,从而在推理时达到高效和高精度的效果。
详细可参考下面资料进行深入学习:
GitHub - openppl-public/ppq: PPL Quantization Tool (PPQ) is a powerful offline neural network quantization tool.
深度学习之模型优化—理论实践篇(搞定模型剪枝量化蒸馏神经网络搜索,这一门课就够了)_哔哩哔哩_bilibili
热门推荐
电子密码门锁,怎样重新设置新密码?
ALT、AST、ALP、GGT,这些指标究竟该怎么看?一文教你读懂肝功能报告
不锈钢管件的优势与应用领域全解析
快船最新伤情报告!3大主力受伤缺席,4天3战恐跌至西部第十
买飞机怎么保值?旧飞机如何变宝?民航业持续凝聚飞机价值管理共识
起名字音调有讲究吗
7年仓管经验:货物分类、库存盘点、出入库管理,一文搞定!
《银发经济三十年》:老龄化社会的经济图景与战略启示
饭后出大汗是什么情况?医生专业解答
维生素C缺乏的危害与补充指南:五类人需特别注意
护胃药泮托拉唑与替普瑞酮有什么区别?
心梗拨打120,胸痛中心快救命
好好说话为什么这么难?心理学角度解析沟通障碍的深层原因与3个有效改善方法
猫咪乱尿屡教不改!到底是为什么?
音频后期制作流程:编辑、混音与母带处理的全面解析
音乐制作流程中母带、原版与原始录制的界定及母带制作与处理的区分
手抓饼怎么和面?教程来了,需要的别错过!
“古代女生节”化身“中国情人节”
2025年养老保险回本时间表:60%档次缴费最划算,108个月就能回本
6G离我们的生活还有多远?
鬼泣巅峰之战圣所怎么过
如何调整股票K线图的显示?这种调整对技术分析有何影响?
中国最新电子战机歼16D,遇到美国最强的EA-18G,究竟谁更胜一筹
如何减少旅行中的压力和焦虑感
专家解读:如何区分流感、支原体、合胞病毒、腺病毒?
头部常感胀痛应该怎样调理
王者荣耀虞姬出装新手攻略:从入门到精通的全面指南
校友会2024中央美术学院学科排名:美术学居北京第一
中央美术学院学科评估结果排名
比特币杠杆ETF是什么意思?全面解析比特币杠杆ETF的运作原理