LoR2C：一种新的参数高效微调方法

创作时间:

作者:

@小白创作中心

LoR2C：一种新的参数高效微调方法

引用

CSDN

https://blog.csdn.net/u013524655/article/details/146032011

近年来，预训练大型语言模型在各种自然语言处理任务中表现出色。然而，全参数微调方法需要调整所有模型参数，导致巨大的计算资源需求。尽管参数高效微调方法（如LoRA）显著减少了参数数量，但仍面临梯度消失和进一步减少参数的挑战。为了解决这些问题，本文提出了一种新的参数高效微调方法——LoR 2 C（低秩残差连接适应）。

背景与动机

大规模语言模型（LLM）的规模迅速增长，并在各种任务上展示了卓越的性能。然而，尽管全参数微调（FT）可以带来显著的性能提升，但调整所有模型参数不仅消耗大量计算资源，还可能导致过拟合和训练效率低下。

为了解决这些问题，研究人员提出了参数高效微调（PEFT）方法，旨在减少计算成本的同时保持微调效果。LoRA在这种背景下应运而生。LoRA通过仅调整部分模型参数来减少计算和存储开销，同时仍能实现显著的微调改进而不影响性能。

尽管LoRA取得了初步进展，其基本形式仍存在一些局限性。为克服这些问题，出现了新的改进方法。例如，MeLoRA通过并行连接多个小型LoRA模块，确保更高秩的同时减少参数数量，从而提高性能。ResLoRA在训练过程中引入残差路径以加速梯度传播，解决LoRA中的梯度消失问题。然而，现有方法仍未能同时有效解决参数过多和梯度消失的问题。

LoR 2 C方法

受ResNet中残差连接的启发，我们提出了一种名为LoR 2 C（低秩残差连接适应）的微调方法。在我们的方法中，我们在整个层中引入带有矩阵变换的残差连接。实验结果显示，变换矩阵表现出低秩特性。基于LoRA原理，我们用矩阵A和B的乘积代替变换矩阵。

ShareLoR 2 C架构图。图中展示了矩阵A在所有层中共享，而每层保留自己的独立矩阵Bt（例如B1, B2, B3）。

LoR 2 C的优势

LoR 2 C中的跳跃连接有助于缓解梯度消失问题。在模型中，梯度传播通常使用链式法则计算。在每一层中，残差连接的存在确保输入梯度不仅通过当前层的权重矩阵传播，还直接传递到前一层。

LoR 2 C及其优化变体ShareLoR 2 C和MergeLoR 2 C不同程度地减少了参数数量：

ShareLoR 2 C：通过参数共享减少参数数量
MergeLoR 2 C：通过模块合并减少参数数量
InjectLoR 2 C：通过注入机制减少参数数量

这些减少使得LoR 2 C及其变体更加参数高效，同时保持高性能。

实验结果

为了验证我们提出的LoR 2 C及其优化方法的有效性，我们在多个自然语言处理（NLP）任务和模型上进行了广泛实验。具体来说，我们在GLUE数据集上使用RoBERTa-base模型评估自然语言理解（NLU）任务，并在Alpaca-Cleaned数据集上使用LLAMA2-7B模型评估自然语言生成（NLG）任务。最后，我们分析了实验结果。

图6显示了不同注入和合并次数对性能的影响。结果显示，适度的注入次数和合理的合并次数对性能提升至关重要。例如，在MRPC数据集上，IMLoR 2 C在注入次数为4且合并次数为1时达到了最高准确率。同样，在STS-B数据集上，最佳皮尔逊相关系数是在注入和合并次数均为4时获得的。对于RTE数据集，较高的合并次数（如5）显著提升了准确率，凸显了合并在此任务中的有效性。相比之下，在CoLA数据集上，最高的马修斯相关系数是在注入次数为3且合并次数为1时获得的，进一步证明了适当配置注入和合并的重要性。总体而言，IMLoR 2 C通过有效利用其注入和合并机制，实现了出色的性能。这表明该方法可以在减少参数使用的同时显著增强任务性能，成为参数高效微调的一个引人注目的解决方案。

InjectLoR 2 C: 在注入机制中，我们动态评估LoR 2 C模块在网络中表示特征信息的贡献，逐步减少冗余模块参数。与合并机制不同，注入机制的核心思想是迭代替换LoR 2 C模块，减少参数开销同时保持模型性能。在训练过程中，注入机制通过多次迭代动态优化，用更高效的低秩模块替换高信息量的LoR 2 C模块以实现参数效率。