问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

预训练模型微调的常见策略

创作时间:
作者:
@小白创作中心

预训练模型微调的常见策略

引用
CSDN
1.
https://m.blog.csdn.net/m0_56901025/article/details/143628418

假设要微调的下游任务为一个分类任务,采用全连接来作为分类头。

1. Finetuning或Full finetuning(全参微调)

分类头和预训练模型中的所有参数一起在下游任务上训练。

2. Linear Probing

仅对分类头调整参数,主要用于评估计算机视觉中的自监督学习表示。即仅分类头的参数是可训练的,预训练模型的参数在微调期间被冻结。

3. Linear-probing finetuning (LP-FT)

LP-FT 是两阶段调节方法。 LP-FT 的第 1 阶段是Linear Probing,第 2 阶段是Full finetuning,分类头初始化为第 1 阶段中训练好的分类头参数。事实证明,对于 OOD 样本,该方法比Full finetuning或Linear Probing更好。

4. Parameter-efficient Tuning(参数高效微调)

只改变一小部分参数,它包括限制可训练参数的方法,例如BitFit,以及添加小型可训练模块的方法,例如adapter modules (LoRA) , prompt tuning, sparse update methods,Prefix-Tuning。


图片来源于论文(Parameter-Efficient Tuning Makes a Good Classification Head)

  • Prompt tuning 通过在预训练模型的基础上添加prompt来适应下游任务,而不需要对模型的参数进行大量的调整。这种方法特别适用于当下游任务的目标与预训练目标差距较大时,通过模板的引入,可以使得模型在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想的效果。(什么是prompt看这里Prompt Tuning 相比于 Fine Tuning 在哪些场景下表现更好? - 知乎)
© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号