大模型微调:参数高效微调(PEFT)方法总结
创作时间:
作者:
@小白创作中心
大模型微调:参数高效微调(PEFT)方法总结
引用
CSDN
1.
https://blog.csdn.net/qq_43542339/article/details/140783359
PEFT(Parameter-Efficient Fine-Tuning)参数高效微调是一种针对大模型微调的技术,旨在减少微调过程中需要调整的参数量,同时保持或提高模型的性能。以下是几种主流的PEFT方法的总结:
LORA
- 论文题目:LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
- 论文链接:https://arxiv.org/pdf/2106.09685
- 发表时间:2021.10.16
含义
LORA是一种用于微调大型预训练语言模型(如GPT-3或BERT)的方法。核心思想是在模型的关键层中添加小型、低秩的矩阵来调整模型的行为,而不是直接改变整个模型的结构。
原理
- 低秩矩阵分解:LoRA通过将权重矩阵分解为两个较低秩的矩阵来减少参数量。具体来说,对于模型中的某个权重矩阵 W,LoRA将其表示为两个较小的矩阵 A 和 B,使得 W≈A×B。这样可以有效地减少需要更新的参数数量。
- 保持预训练权重不变:LoRA保留了预训练模型的原始权重,并在此基础上进行调整。通过添加低秩更新矩阵 ΔW=A×B 到原始权重矩阵 W,来得到新的权重矩阵 W′=W+ΔW。这种方法允许模型在保留预训练知识的同时,适应新的任务。
Adapter Tuning
- 论文题目:Parameter-Efficient Transfer Learning for NLP
- 论文链接:https://arxiv.org/pdf/1902.00751
- 发表时间:2019.6.13
含义
通过在预训练模型的基础上添加适配器层(adapters),来实现特定任务的微调。这种方法旨在保留预训练模型的原始权重,仅在需要适应新任务的地方进行小规模的参数调整。
原理
- 插入适配器层:在预训练模型的特定位置(通常是在每个 Transformer 层的内部或后面)插入适配器层。
- 适配器层结构:这些适配器层是一些小规模的神经网络,通常由一个下采样层(减少维度)、一个激活函数(如 ReLU)和一个上采样层(恢复维度)组成。
- 冻结预训练权重:在微调过程中,预训练模型的原始权重保持不变,仅训练适配器层的权重。
- 高效微调:由于适配器层的参数数量相对较少,微调过程变得更加高效。适配器层可以针对不同任务进行训练,而不影响预训练模型的核心结构。
Prompt Tuning
- 论文题目:The Power of Scale for Parameter-Efficient Prompt Tuning
- 论文链接:https://arxiv.org/pdf/2104.08691
- 发表时间:2021.9.2
含义
在预训练语言模型的输入中添加可学习的嵌入向量作为提示。其核心思想是通过引入任务特定的提示(prompts),而非对整个模型进行全参数更新,从而实现对模型的高效微调。
原理
- 设计提示词:输入提示(prompt)通常包含任务描述、示例或特定的输入格式。例如,对于情感分类任务,可以设计一个提示词:“这段文字的情感是:”。
- 优化提示词:Prompt Tuning 的优化对象是输入提示的词嵌入(embedding)。通过梯度下降等优化算法,调整提示词的词嵌入,使得模型在特定任务上的表现达到最优。
- 冻结预训练模型:在 Prompt Tuning 中,预训练模型的权重保持不变,仅优化提示词的嵌入。
Prefix-Tuning
- 论文题目:Prefix-Tuning: Optimizing Continuous Prompts for Generation
- 论文链接:https://arxiv.org/pdf/2101.00190
- 发表时间:2021.1.1
含义
通过固定预训练模型的参数,仅在输入序列的前面添加一个可训练的前缀(prefix),从而在不改变模型参数的情况下实现特定任务的适应。
原理
- 固定模型参数:不对预训练语言模型(如 GPT-3、BERT 等)的参数进行微调
- 添加可训练前缀:在输入序列的前面添加一个可训练的前缀向量。这个前缀向量的长度和维度可以根据具体任务进行调整
- 任务适应:在实际应用中,前缀向量与输入序列一起输入到预训练模型中。由于前缀向量是可训练的,模型可以通过调整前缀向量来适应特定的任务,而无需改变模型本身的参数。
P-Tuning
- 论文题目:GPT Understands, Too
- 论文链接:https://arxiv.org/pdf/2103.10385v1
- 发表时间:2021.3.18
含义
在模型输入中插入一些可训练的提示(prompts),这些提示是嵌入向量(embedding vectors),在训练过程中被优化。
原理
- 固定模型参数:和 Prefix-Tuning 类似,不改模型参数
- 插入可训练提示:在输入序列的适当位置插入一些可训练的提示向量。
- 任务适应:在训练过程中,这些提示向量与输入序列一起输入到预训练模型中。
P-Tuning V2
- 论文题目:P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
- 论文链接:https://arxiv.org/pdf/2110.07602v2
- 发表时间:2021.10.18
含义
保留了 P-Tuning 的核心思想,即通过优化输入提示向量来引导预训练模型处理特定任务。
原理
相比较于P-Tuning:
- 动态提示优化:采用动态提示优化方法
- 多层提示插入:P-Tuning V2 不仅在输入序列的前面插入提示向量,还在模型的不同层次(如中间层)插入提示向量
BitFit
- 论文题目:BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models
- 论文链接:https://arxiv.org/abs/2106.10199
- 发表时间:2021.6.18
含义
通过仅微调模型的偏置参数来适应新的任务,从而减少了需要调整的参数量。
原理
- 原始 BERT 模型:包含多层 Transformer,每层有权重矩阵 W 和偏置 b。
- BitFit 微调:保持所有权重矩阵 W 不变,只微调每层的偏置参数 b
DistilBERT
- 论文题目:DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
- 论文链接:https://arxiv.org/abs/1910.01108
- 发表时间:2020.3.1
含义
使用知识蒸馏技术将大模型压缩成更小的模型,从而减少微调所需的计算资源和时间。
原理
知识蒸馏是一种模型压缩技术,通过训练一个较小的学生模型(student model)来模仿较大教师模型(teacher model)的行为。具体步骤如下:
- 教师模型:使用预训练的 BERT 模型作为教师模型。
- 学生模型:构建一个较小的 BERT 模型,即 DistilBERT。
- 训练过程:在训练过程中,学生模型通过模仿教师模型的输出来学习。损失函数不仅包括学生模型和教师模型输出之间的差异,还包括学生模型和真实标签之间的差异。
热门推荐
想省钱的年轻人“碰上”最能赚的廉航,谁赢了?
知识库管理:提升企业效率的关键策略
MBTI与动物匹配指南:哪些动物代表你的性格
马六甲也有12生肖,但明年吉祥物是“貔貅”
“三朝元老”:从历史典故到现代职场的传承
新能源车与燃油车冬季性能比较
手机摔地上会对内部有影响吗
从无人问津到火爆出圈,国产跑鞋一路狂飙,外国品牌还能挺多久?
认识一下黄油
坚定信念:战胜困难,成就梦想
八字预测的准确性与局限性:一场科学与传统的对话
皮肤瘙痒的烦恼与解决之道,选择合适的沐浴露止痒
在Windows中查找电脑序列号的几种方法,看看有没有适合你的
博士如何高效发表SCI论文:从选题到投稿的九大策略
低成本高速飞行利器,穿越机技术详解
日本各地区留学生的月平均支出是多少?打工又能挣到多少钱呢?
看懂平衡膳食金字塔,吃得更科学、更健康
失字的秘密:一个汉字背后的故事
保护男性生育力,守护男性“生命之源”
上腹、中腹、下腹疼痛分别对应什么病症?
中国动漫博物馆推出“时代·漫画”主题研学活动,创新传承动漫文化
价值投资仍然是王道
高考英语135+的秘密:3个黄金法则突破词法瓶颈
不同风险承受能力的投资者应如何选择股票投资策略?
孟姓女孩起名100分大气的(2025版)
成都市积分落户到租赁房子(租房也能积分落户?成都这个政策太良心了!)
常用浏览器性能对比:挑选最适合你的浏览器指南
二手车销售价值怎样提升
上海黄浦江轮渡——穿梭于历史与现代之间的水上之旅
痛风患者必知!识别3大“嘌呤隐形杀手”,避免痛风发作!