资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大模型微调：参数高效微调（PEFT）方法总结

创作时间:

作者:

@小白创作中心

大模型微调：参数高效微调（PEFT）方法总结

引用

CSDN

https://blog.csdn.net/qq_43542339/article/details/140783359

PEFT（Parameter-Efficient Fine-Tuning）参数高效微调是一种针对大模型微调的技术，旨在减少微调过程中需要调整的参数量，同时保持或提高模型的性能。以下是几种主流的PEFT方法的总结：

LORA

论文题目：LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
论文链接：https://arxiv.org/pdf/2106.09685
发表时间：2021.10.16

含义

LORA是一种用于微调大型预训练语言模型（如GPT-3或BERT）的方法。核心思想是在模型的关键层中添加小型、低秩的矩阵来调整模型的行为，而不是直接改变整个模型的结构。

原理

低秩矩阵分解：LoRA通过将权重矩阵分解为两个较低秩的矩阵来减少参数量。具体来说，对于模型中的某个权重矩阵 W，LoRA将其表示为两个较小的矩阵 A 和 B，使得 W≈A×B。这样可以有效地减少需要更新的参数数量。
保持预训练权重不变：LoRA保留了预训练模型的原始权重，并在此基础上进行调整。通过添加低秩更新矩阵 ΔW=A×B 到原始权重矩阵 W，来得到新的权重矩阵 W′=W+ΔW。这种方法允许模型在保留预训练知识的同时，适应新的任务。

Adapter Tuning

论文题目：Parameter-Efficient Transfer Learning for NLP
论文链接：https://arxiv.org/pdf/1902.00751
发表时间：2019.6.13

含义

通过在预训练模型的基础上添加适配器层（adapters），来实现特定任务的微调。这种方法旨在保留预训练模型的原始权重，仅在需要适应新任务的地方进行小规模的参数调整。

原理

插入适配器层：在预训练模型的特定位置（通常是在每个 Transformer 层的内部或后面）插入适配器层。
适配器层结构：这些适配器层是一些小规模的神经网络，通常由一个下采样层（减少维度）、一个激活函数（如 ReLU）和一个上采样层（恢复维度）组成。
冻结预训练权重：在微调过程中，预训练模型的原始权重保持不变，仅训练适配器层的权重。
高效微调：由于适配器层的参数数量相对较少，微调过程变得更加高效。适配器层可以针对不同任务进行训练，而不影响预训练模型的核心结构。

Prompt Tuning

论文题目：The Power of Scale for Parameter-Efficient Prompt Tuning
论文链接：https://arxiv.org/pdf/2104.08691
发表时间：2021.9.2

含义

在预训练语言模型的输入中添加可学习的嵌入向量作为提示。其核心思想是通过引入任务特定的提示（prompts），而非对整个模型进行全参数更新，从而实现对模型的高效微调。

原理

设计提示词：输入提示（prompt）通常包含任务描述、示例或特定的输入格式。例如，对于情感分类任务，可以设计一个提示词：“这段文字的情感是：”。
优化提示词：Prompt Tuning 的优化对象是输入提示的词嵌入（embedding）。通过梯度下降等优化算法，调整提示词的词嵌入，使得模型在特定任务上的表现达到最优。
冻结预训练模型：在 Prompt Tuning 中，预训练模型的权重保持不变，仅优化提示词的嵌入。

Prefix-Tuning

论文题目：Prefix-Tuning: Optimizing Continuous Prompts for Generation
论文链接：https://arxiv.org/pdf/2101.00190
发表时间：2021.1.1

含义

通过固定预训练模型的参数，仅在输入序列的前面添加一个可训练的前缀（prefix），从而在不改变模型参数的情况下实现特定任务的适应。

原理

固定模型参数：不对预训练语言模型（如 GPT-3、BERT 等）的参数进行微调
添加可训练前缀：在输入序列的前面添加一个可训练的前缀向量。这个前缀向量的长度和维度可以根据具体任务进行调整
任务适应：在实际应用中，前缀向量与输入序列一起输入到预训练模型中。由于前缀向量是可训练的，模型可以通过调整前缀向量来适应特定的任务，而无需改变模型本身的参数。

P-Tuning

论文题目：GPT Understands, Too
论文链接：https://arxiv.org/pdf/2103.10385v1
发表时间：2021.3.18

含义

在模型输入中插入一些可训练的提示（prompts），这些提示是嵌入向量（embedding vectors），在训练过程中被优化。

原理

固定模型参数：和 Prefix-Tuning 类似，不改模型参数
插入可训练提示：在输入序列的适当位置插入一些可训练的提示向量。
任务适应：在训练过程中，这些提示向量与输入序列一起输入到预训练模型中。

P-Tuning V2

论文题目：P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
论文链接：https://arxiv.org/pdf/2110.07602v2
发表时间：2021.10.18

含义

保留了 P-Tuning 的核心思想，即通过优化输入提示向量来引导预训练模型处理特定任务。

原理

相比较于P-Tuning：

动态提示优化：采用动态提示优化方法
多层提示插入：P-Tuning V2 不仅在输入序列的前面插入提示向量，还在模型的不同层次（如中间层）插入提示向量

BitFit

论文题目：BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models
论文链接：https://arxiv.org/abs/2106.10199
发表时间：2021.6.18