ACIQ对称量化：极智AI的高效实践

创作时间:

作者:

@小白创作中心

ACIQ对称量化：极智AI的高效实践

引用

百度

等

来源

https://cloud.baidu.com/article/3322094

https://blog.csdn.net/jinzhuojun/article/details/106955059

https://cloud.baidu.com/article/3292783

https://openreview.net/forum?id=B1x33sC9KQ

https://developer.aliyun.com/article/930683

https://openreview.net/forum?id=qe9z54E_cqE

https://openreview.net/forum?id=HkeAepVKDH

https://developer.aliyun.com/article/1398069

随着人工智能技术的飞速发展，模型推理的加速成为了提升AI应用性能的关键。量化作为一种有效的模型优化技术，通过降低数据精度来减少计算资源消耗和存储需求。在众多量化算法中，ACIQ（Adaptive Clipping for Integer Quantization）对称量化算法因其高效性与高精度脱颖而出。本文将结合Tengine框架，详细解析ACIQ对称量化算法的实现与应用。

ACIQ量化算法概述

ACIQ量化算法在论文《Post training 4-bit quantization of convolutional networks for rapid-deployment》中被首次提出，其核心理念在于最小化量化过程中的信息损失。与传统方法在网络层面进行量化不同，ACIQ从Tensor级别出发，通过优化截断值来减少量化误差。

原理剖析

ACIQ算法的核心在于寻找最优截断值T，将[-T, T]范围内的数据映射到量化值域。这一过程需要两个关键步骤：

推导期望MSE（均方误差）的通用表达式：对于任意给定的分布，根据截断值T推导出MSE的表达式。
求解最优截断值：利用最优化思想，通过求解MSE关于截断值T的偏导数为0的方程，得到最优截断值。

ACIQ算法假设Tensor数据服从拉普拉斯分布或高斯分布，并基于这些先验分布进行量化损失的优化。量化过程可视为将原始分布的值映射到2^M个量化离散值域，其中M为量化比特数。

Tengine中的ACIQ实现

Tengine是一个由OpenAILab开源的端侧深度学习推理框架，其高效的量化模块为模型推理加速提供了有力支持。在Tengine中，ACIQ量化算法的实现主要分为以下几个步骤：

激活值量化

激活值量化的入口函数是quant_tool.activation_quant_tool()。首先，计算Tensor数据的min和max值，这是量化过程中的常规步骤。随后，进入ACIQ策略的核心：

计算最优截断值：根据Tensor数据的分布（假设为拉普拉斯或高斯分布），通过求解MSE最小化问题得到最优截断值T。
映射量化值：将[-T, T]范围内的数据映射到2^M个量化值上，完成量化过程。

量化实现代码示例

以下是Tengine中ACIQ量化实现的部分代码示例：

case ALGORITHM_ACIQ:
{
    if (quant_tool.scale_file.empty()) {
        quant_tool.scale_file = "table_aciq.scale";
        quant_tool.activation_quant_tool();
    }
    save_graph_i8_perchannel(quant_tool.model_file.c_str(), quant_tool.scale_file.c_str(), quant_tool.output_file, quant_tool.inplace, false);
    if (quant_tool.evaluate) {
        fprintf(stderr, "[Quant Tools Info]: Step Evaluate, evaluate quantitative losses\n");
        quant_tool.assess_quant_loss(0);
    }
    break;
}