问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

LLM大模型在预训练和微调阶段的性能变化研究

创作时间:

作者:

@小白创作中心

LLM大模型在预训练和微调阶段的性能变化研究

引用

CSDN

1.

https://blog.csdn.net/qq_59084968/article/details/141298533

大型语言模型（LLMs）在预训练和微调阶段的性能变化一直是研究热点。约翰霍普金斯大学最新研究通过在18个数据集上微调多个预训练模型的中间检查点，揭示了预训练和微调之间的相互关系。研究发现，持续的预训练能够在微调后以一种不明显的方式提升模型性能，而微调对于那些在预训练阶段模型表现不佳的数据集提升更大。此外，研究还探讨了监督式微调对模型知识遗忘的影响，为优化LLMs训练策略提供了重要参考。

Abstract

研究目的：探索预训练与微调之间的关系，特别是它们是如何共同影响模型最终性能的。
研究方法：通过在18个数据集上微调多个预训练模型的中间检查点来进行实验分析。
主要发现：
持续的预训练能够在微调后以一种不明显的方式提升模型性能。
这句话的意思是，在大型语言模型（LLMs）的预训练阶段，即使模型在预训练过程中对某些任务的性能提升不明显，持续进行预训练仍然可以在后续的微调阶段带来潜在的性能提升。换句话说，预训练阶段的持续训练可能在当下看起来效果不大，但这些训练所获得的知识或能力会在模型针对特定任务进行微调时显现出来，从而提高模型在这些任务上的表现。
具体来说，这种提升可能表现在以下几个方面：

知识深度：预训练阶段让模型接触到更多的语言数据和模式，这可能加深了模型对语言知识的理解，即使这种理解在预训练阶段并未直接转化为性能提升。
潜在能力：模型可能在预训练过程中学习到了一些潜在的能力，这些能力在预训练阶段没有被激活或测试，但在微调时，当模型针对特定任务进行训练，这些潜在能力就被激发出来了。
泛化能力：持续的预训练可能增强了模型的泛化能力，使其在面对未见过的数据或任务时，能够更好地调整和适应，这种能力在微调时尤其重要。
微调效果：在微调阶段，模型需要调整其参数以适应特定的任务。如果模型在预训练阶段已经积累了丰富的知识，那么在微调时，这些知识可以作为基础，帮助模型更快地学习任务相关的特定特征，从而提升性能。
论文中的这一发现强调了预训练阶段的重要性，即使在预训练过程中看不到直接的性能提升，也不应该忽视其对模型长期学习和适应能力的潜在贡献。

微调对于那些在预训练阶段模型表现不佳的数据集提升更大。
监督式微调虽然能显著提升特定任务的性能，但可能导致模型忘记之前学到的领域知识或未在微调中见过的任务。
微调后的模型对评估提示非常敏感，但这种敏感性可以通过更多的预训练来降低。

Introduction

背景：介绍了大型语言模型的发展和它们在自然语言处理任务中的应用。
研究动机：尽管当前的研究集中在改善预训练和微调的各自阶段，但对这两个阶段如何相互作用的理解仍然有限。

Model Training

预训练：讨论了预训练的基本过程，包括使用大规模文本语料库和模型架构的改进。
微调：介绍了微调的不同形式，包括监督式微调和指令式微调，以及它们如何影响模型的行为。
上下文学习：讨论了上下文学习的概念，即模型如何使用少量监督数据来提升性能。

Experimental Setup

模型选择：选择了OLMo-1B模型，因为它是少数公开中间预训练检查点的模型之一。
训练过程：详细描述了微调过程，包括使用的超参数、批次大小和学习率。
评估方法：解释了如何评估模型在不同数据集上的性能，包括使用准确率和ROUGE-L等指标。

预训练对模型变化的影响(How does the model change across pre-training?)

性能评估：针对大模型在预训练过程中的checkpoints，进行下游任务zero-shot或few-shot测试，通过在不同预训练步骤上评估模型，来观察模型性能的变化。
发现：一些任务在预训练的早期阶段就显示出明显的性能提升，但随后趋于稳定；而另一些任务在整个预训练过程中性能保持不变。如上图可以发现，大模型随着训练步数的增加，并不是所有任务数据的效果会随之提高，部分任务数据在整个预训练过程中，基本没有变化（预训练没有学习过）。效果提高的任务数据，也主要在训练前期提高较多，后期趋于平稳。
模型在预训练过程中，更多在学习知识，即使学习更多，可能也不会使用。

预训练是否改善微调(Does more pre-training improve fine-tuning?)

在预训练时表现较好的任务数据，在微调过程中并不会得到改善，即在预训练过程中已经获取了知识信息，微调没有很大帮助。
在预训练阶段表现不好的任务数据，微调模型的每个checkpoint都会有明显的改善，微调收益先增加再平稳。

监督微调：模型学到了什么，忘记了什么？(Supervised Fine-Tuning: What does the model learn and forget?)

任务格式：使用三种任务格式（默认格式、IO格式、Intruct格式）验证大模型在不同checkpoint上的性能。发现在预训练早期，微调格式与预训练格式一致可以获取更好的效果，随着预训练步数增加，大模型对格式的敏感性会随之下降，可以变的更加灵活。微调阶段可以教会大模型去适应任务格式。
任务迁移：很多研究已经发现模型微调会导致某些任务的改进，但另一些任务的退化。通过实验发现，在生成任务上微调，在其他生成任务和分类任务上验证基本无下降；在分类任务上微调，在其他分类任务上无下降，但在生成任务上有明显下降。
领域知识：模型在学习其他能力之后，是否一定会遗忘微调之前拥有的领域知识。如下图所示，对于不同任务的结论不一致，所有NLI数据在MNLI上微调后，都会得到提高；但在Paws微调后，其他释义检测数据集均有下降。意味着遗忘和学习都发生。

Conclusion

主要发现可以总结为：

一些在预训练中学习过的任务随着预训练的step数目提升在测试时显示出明显的性能提升，但随后趋于稳定；而一些在预训练中没有学习过的任务随着预训练的step数目提升在测试时性能仍旧保持不变。
在预训练时表现较好的任务数据，在微调过程中并不会得到改善，即在预训练过程中已经获取了知识信息，微调没有很大帮助。在预训练阶段表现不好的任务数据，微调模型的每个checkpoint都会有明显的改善，微调收益先增加再平稳。
在预训练早期，微调格式与预训练格式一致可以获取更好的效果，随着预训练步数增加，大模型对格式的敏感性会随之下降，可以变的更加灵活。微调阶段可以教会大模型去适应任务格式
在生成任务上微调，在其他生成任务和分类任务上验证基本无下降；在分类任务上微调，在其他分类任务上无下降，但在生成任务上有明显下降。

Limitations

计算资源：由于资源限制，只能在较小的模型和有限的数据集上进行实验。
预训练检查点的可用性：公开的预训练检查点有限，这限制了研究的范围。
模型扩展性：研究没有涉及到更大规模模型可能表现出的“突现能力”。
分析协议：使用了单一的评估协议，可能无法全面反映模型的内部工作机制。
训练范式：研究只探索了全参数微调，未考虑参数高效的微调或基于人类偏好的微调。

整体来看，这篇论文通过在多个数据集上对大型语言模型的预训练和微调过程进行细致的研究，提供了对于如何更有效地训练和利用这些模型的深刻见解。论文的发现对于模型训练、多任务学习以及模型的可解释性都有重要的启示。

热门推荐

医保新政策：慢特病报销比例提高至95%，新增5种跨省结算病种

医保新政策：慢特病报销比例提高至95%，新增5种跨省结算病种

三潭印月：一元纸币背后的杭州传奇

三潭印月：一元纸币背后的杭州传奇

跟着苏轼和白居易探秘西湖

跟着苏轼和白居易探秘西湖

M1、M2增速差与股市走势高度相关，3月数据释放重要信号

M1、M2增速差与股市走势高度相关，3月数据释放重要信号

2024悬疑推理小说盘点：多部高分新作引发阅读热潮

2024悬疑推理小说盘点：多部高分新作引发阅读热潮

陈渐《长安击壤歌》：以悬疑推理重构唐朝西游故事

陈渐《长安击壤歌》：以悬疑推理重构唐朝西游故事

非物质文化遗产行业现状及发展趋势分析

非物质文化遗产行业现状及发展趋势分析

刀郎《山歌廖哉》融合聊斋元素，掀起传统文化音乐热潮

刀郎《山歌廖哉》融合聊斋元素，掀起传统文化音乐热潮

一本书读懂人性：《万历十五年》中的权力与欲望

一本书读懂人性：《万历十五年》中的权力与欲望

从偏见到幸灾乐祸：心理学揭秘人性阴暗面

从偏见到幸灾乐祸：心理学揭秘人性阴暗面

酒店保险指南：四大险种保障运营安全

酒店保险指南：四大险种保障运营安全

杭州到宁波自驾游打卡网红景点

杭州到宁波自驾游打卡网红景点

洛杉矶布伦特伍德社区遭山火侵袭，名人豪宅危在旦夕

洛杉矶布伦特伍德社区遭山火侵袭，名人豪宅危在旦夕

清华研究证实：自我肯定干预可提升中国青少年心理健康

清华研究证实：自我肯定干预可提升中国青少年心理健康

保险理赔遇拖延，四种途径助你维权

保险理赔遇拖延，四种途径助你维权

保险理赔全流程解析：四大阶段十项要点全攻略

保险理赔全流程解析：四大阶段十项要点全攻略

西湖醋鱼烹饪标准培训班开课，18位名厨传授正宗做法

西湖醋鱼烹饪标准培训班开课，18位名厨传授正宗做法

浙江十大名菜：饮食文化的传承与创新

浙江十大名菜：饮食文化的传承与创新

供求、政策、预期：决定商品价格波动的关键力量

供求、政策、预期：决定商品价格波动的关键力量

金刚鹦鹉的炫酷羽毛：不只是美丽的装饰

金刚鹦鹉的炫酷羽毛：不只是美丽的装饰

断联、释放、重建：心理咨询师教你走出分手思念

断联、释放、重建：心理咨询师教你走出分手思念

白底黑点的尊贵：鼬皮在欧洲皇室的象征意义与传承

白底黑点的尊贵：鼬皮在欧洲皇室的象征意义与传承

分手后如何真正放下？从断绝联系开始

分手后如何真正放下？从断绝联系开始

第五个警察节：看社区民警如何创新守护家园

第五个警察节：看社区民警如何创新守护家园

香洲区：社区民警元旦前宣讲安全法规，四大领域全覆盖

香洲区：社区民警元旦前宣讲安全法规，四大领域全覆盖

各地公安机关开展校园安全教育，筑牢学生寒假安全防线

各地公安机关开展校园安全教育，筑牢学生寒假安全防线

山水有约，警民同行：杭州公安生态警务MV《西湖之约》发布

山水有约，警民同行：杭州公安生态警务MV《西湖之约》发布

杭州二日自驾游：西湖、灵隐寺等景点深度游

杭州二日自驾游：西湖、灵隐寺等景点深度游

如何拍出令人惊艳的景点照片？6个实用技巧全解析

如何拍出令人惊艳的景点照片？6个实用技巧全解析

陕西师大开展国防安全教育，社区民警为万名新生授课

陕西师大开展国防安全教育，社区民警为万名新生授课

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号