预训练模型微调的常见策略
创作时间:
作者:
@小白创作中心
预训练模型微调的常见策略
引用
CSDN
1.
https://m.blog.csdn.net/m0_56901025/article/details/143628418
假设要微调的下游任务为一个分类任务,采用全连接来作为分类头。
1. Finetuning或Full finetuning(全参微调)
分类头和预训练模型中的所有参数一起在下游任务上训练。
2. Linear Probing
仅对分类头调整参数,主要用于评估计算机视觉中的自监督学习表示。即仅分类头的参数是可训练的,预训练模型的参数在微调期间被冻结。
3. Linear-probing finetuning (LP-FT)
LP-FT 是两阶段调节方法。 LP-FT 的第 1 阶段是Linear Probing,第 2 阶段是Full finetuning,分类头初始化为第 1 阶段中训练好的分类头参数。事实证明,对于 OOD 样本,该方法比Full finetuning或Linear Probing更好。
4. Parameter-efficient Tuning(参数高效微调)
只改变一小部分参数,它包括限制可训练参数的方法,例如BitFit,以及添加小型可训练模块的方法,例如adapter modules (LoRA) , prompt tuning, sparse update methods,Prefix-Tuning。
图片来源于论文(Parameter-Efficient Tuning Makes a Good Classification Head)
- Prompt tuning 通过在预训练模型的基础上添加prompt来适应下游任务,而不需要对模型的参数进行大量的调整。这种方法特别适用于当下游任务的目标与预训练目标差距较大时,通过模板的引入,可以使得模型在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想的效果。(什么是prompt看这里Prompt Tuning 相比于 Fine Tuning 在哪些场景下表现更好? - 知乎)
热门推荐
网红何某某、梅某、李某某等7人,全部落网!成都警方披露细节
合肥市残疾证换证怎么办理流程
汉景帝为何没有庙号?历史上庙号的由来是什么?
为什么说彩票一等奖几乎不可能造假?每期都有普通人真的中奖
黄金价格影响因素探究
INTJ与INTP的差异及INTJ恋爱理想型分析
李嘉诚:不义之财如浮云,诚信为本守初心
有些“肚子痛”会要命!不同疼痛暗示不同疾病(值得收藏)
海南道教文化朝圣地:探寻神秘仙岛之旅
从前有个黄金国 ——读伏尔泰《老实人》
韦达定理推导过程图解(韦达定理推导过程)
哪里可以查看知识产权管理体系认证证书样本?
怎么维持夫妻沟通
刘振民:全球实现碳中和要做好这四件事情
如何认定侵权责任:法律分析
电脑风扇如何测试软件
四季开花的室内花卉有哪些?(以及种植方法)
历史上真实的陆绎:明朝锦衣卫的传奇人物
查询工业用地价格的途径与方法
熬猪油要不要加水?其实很多人都做错了,难怪猪油泛黄还不易保存
熬猪油,看似简单的一项日常烹饪任务,实则蕴含着许多技巧和讲究
动物的食性与生态演化
春节申遗成功:中国人庆祝传统新年的社会实践
创新传统节日庆祝形式,上海互联网企业"中国节"系列活动很吸睛
单排如何才能提高胜率?意识和主玩位置很关键
“好房子”时代,居家生活将被如何重塑?
塞尔达传说解谜进化:从《王国之泪》到《智慧的再现》
诺氟沙星胶囊咨询及用药建议
从孤儿到隐藏BOSS:药师兜的传奇人生
别把慢性疲劳当秋乏!5招教你调节秋季疲劳