【NLP】大模型在持续学习中的最新进展:综述
【NLP】大模型在持续学习中的最新进展:综述
近年来,基础语言模型在自然语言处理和计算机视觉领域取得了显著成就。然而,由于灾难性遗忘,这些模型仍然无法模拟人类的持续学习能力。本文将对现有文献中应用于基础语言模型的持续学习方法进行深入综述、总结和分类,以期为读者提供全面的参考。
近年来,基础语言模型(LMs)在自然语言处理(NLP)和计算机视觉(CV)领域设立了新的基准。基础语言模型主要包括三大类:预训练语言模型(PLMs)、大语言模型(LLMs)和视觉-语言模型(VLMs)。PLMs如BERT、RoBERTa和BART专注于文本任务,通过利用掩码语言建模等任务进行预训练,对于理解和生成语言至关重要。LLMs如GPT-4和LLaMA通过扩大模型架构和训练数据的规模,扩展了PLMs的能力,从而增强了它们在更广泛任务中的普适性和适应性。VLMs如VisualBERT、CLIP、LLaVA和DALL-E集成了文本和图像模态,使视觉和文本信息之间能够进行复杂交互。这些模型的基本范式是通过在广泛的、通常是无标签的数据集上进行预训练来捕获丰富的语义信息,然后针对具体任务或领域进行微调。这种方法不仅提升了各类应用的性能,还显著增强了模型的灵活性和任务适应性。
然而,这些基础模型在具有一系列任务的动态环境中往往表现出局限性,主要原因是训练完成后参数固定。这些模型通常缺乏在不进行重新训练的情况下整合新数据或概念的能力。一个重要挑战是“灾难性遗忘”,即模型在学习新信息时会丧失先前获得的知识。这与人类的持续学习过程形成鲜明对比,人类学习过程本质上是连续且适应性的。尽管多任务学习(MTL)和迁移学习(TL)在某些应用中取得了成功,但它们在现实场景中有其局限性。MTL需要在开始时就提供所有任务及其数据,这在推出新服务时构成挑战,因为模型必须重新训练所有数据。此外,TL通常只涉及两个任务,即源任务和目标任务,这对于拥有多个目标任务的现实在线平台来说是不切实际的。为了解决这些挑战,模型需要处理和学习不断扩展和多样化的数据集。这需要允许模型在适应新语言现象和趋势的同时,不影响对历史数据的准确性和敏感性的机制。
因此,持续学习(CL),也被称为终身学习或增量学习,是人工智能中的一个关键领域,旨在开发能够持续更新自身并获取新知识的系统,而不遗忘先前学到的信息,类似于人类学习。这一范式在基础语言模型(LMs)的背景下尤为重要,因为它们面临灾难性遗忘(CF)和跨任务知识转移(KT)等特定问题。灾难性遗忘是一个显著挑战,模型在学习新信息时倾向于丧失先前获得的知识。为了解决这一问题,语言模型必须在适应新的语言趋势的同时,保持对过去语言数据的稳固掌握。此外,跨任务知识转移对于增强持续学习过程至关重要。有效的知识转移不仅加速新任务的学习曲线(前向转移),还通过新知识的反馈提高模型在先前任务上的性能(反向转移)。
持续学习方法的最新进展大大提升了基础语言模型(LMs)的适应性和知识保留能力。这些进展对于解决CL中先前观察到的复杂挑战至关重要。研究人员制定了创新策略来减轻这些挑战,从而使LMs能够在各种任务中保持高性能,同时持续整合新知识。在不同的下游任务中记录了显著的成功,例如基于方面的情感分析,其中持续学习使动态适应不断变化的方面和情感成为可能。同样,在对话生成中,新技术通过持续交互帮助模型改进和扩展其对话能力。在文本分类中,持续学习促进了新类别的整合和对文本分布变化的调整,而无需完全重新训练。此外,在视觉问答领域,持续学习对于更新模型处理和响应新类型视觉内容和查询的能力至关重要。上述工作强调了持续学习对提升基础语言模型性能的潜力。
在持续学习领域,传统方法向整合基础语言模型的方法发生了显著的范式转变(见图1)。首先,基础语言模型由于在大规模数据集上的广泛预训练,展示了增强的泛化和迁移学习能力。模型具有快速适应下游任务的专门迁移能力,只需少量样本。因此,在促进新技能获取的同时,减轻零样本迁移和历史任务能力的退化至关重要。其次,由于基础语言模型中大量的参数,采用参数高效技术如提示调优和适配器,无需全面重新训练即可更新参数。第三,基础语言模型具备通过指令学习进行动态和上下文感知交互的能力。
本综述系统地将这些策略和技术分类为两个核心领域:离线持续学习和在线持续学习(图2)。我们首先给出离线和在线CL的详细定义和场景,其中离线CL包括领域增量、任务增量和类别增量CL,而在线CL包括硬任务边界和模糊任务边界。这些学习策略进一步细分为基于预训练语言模型(PLMs)、大语言模型(LLMs)和视觉-语言模型(VLMs)的方法。然后,我们总结了与传统方法、持续预训练方法、参数高效调优方法和基于指令方法相关的论文。最后,我们从多个角度统计了主要数据集,并回顾了评估模型遗忘和知识转移的关键指标。
本综述论文的主要贡献如下:
- 我们全面回顾了现有的基于基础语言模型的持续学习方法文献,这些方法将基础语言模型与CL整合起来,在不重新训练模型的情况下学习新知识。这与传统CL大不相同,因为基础语言模型具有强大的迁移学习、零样本和指令跟随能力,并且参数庞大。
- 我们定义了不同的设置,并将这些研究分类为各种类型,以便更好地理解该领域的发展。除了传统方法如重放、正则化和参数隔离算法外,我们还总结了持续预训练方法、参数高效调优方法和基于指令调优的方法。
- 我们提供了现有持续学习数据集的特征,并展示了评估防止遗忘和知识转移性能的主要指标。
- 我们讨论了基于基础语言模型的持续学习面临的最具挑战性的问题,并指出了该领域未来有前景的研究方向。
本文结构如下:在第2节中,我们回顾了与持续学习相关的主要综述。然后,在第3节中,我们介绍了持续学习的基本设置和学习模式,包括CL的定义和场景。此外,我们在第4节中展示了与离线持续学习相关的研究,这些研究可以分为领域增量学习、任务增量学习和类别增量学习。在第5节中,我们重点介绍了在线持续学习,包括硬任务边界和模糊任务边界设置。第6和第7节提供了典型数据集和指标。最后,我们在第8节分析了挑战和进一步的工作,并在第9节给出结论。
参考文献
[1] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. In Advances in Neural Information Processing Systems, pages 1877–1901, 2020.
[88] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, 2019.
[102] Mike Lewis, Marjan Ghazvininejad, Yinhan Liu, Gargi Mishra, Sameer Singh, Llion Jones, and Vlad Oftelie. Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 7457–7470, 2020.
[106] Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, and Kai-Wei Chang. Visualbert: A simple and performant baseline for vision and language. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 2221–2231, 2019.
[120] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692, 2019.
[140] Mostafa Dehghani, Samira Abnar, Jonathan Hay, Amaia Salvador, Behnam Neyshabur, and Arthur Szlam. Adaptive attention span in transformers. In International Conference on Machine Learning, pages 2374–2383, 2020.
[144] Jason Wei, Maarten Bosma, Brian Lester, Sheng Shen, Dustin Schwenk, Adam Fisch, and Samuel R. Bowman. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2206.11882, 2022.
[148] Zeming Lin, Wenhan Xiong, and Mo Yu. Visual question answering as a new venue for continual learning. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 3676–3686, 2020.
[154] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 8748–8763. PMLR, 2021.
[156] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 2022.
[158] Yujia Xie, Yujia Shen, and Tommi Jaakkola. Continual learning with tiny islands. In International Conference on Learning Representations, 2021.
[164] Yizhe Zhang, Zhe Gan, Yelong Shen, Jingjing Liu, and Jianfeng Gao. Continual learning for dialogue systems with incremental knowledge graph embeddings. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 3665–3675, 2020.
[173] Arthur Conneau, Hugo Touvron, Gautier Izacard, Thibault Salazar, Xin Yuan, Quynh Le, and Myle Ott. Xglm: A global model for multilingual natural language understanding. In Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1235–1249, 2022.
[188] Alexei A Efros and Richard B Russell. The case for image retrieval. In Proceedings of the 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, pages 40–47. IEEE, 2009.
[220] Yiming Cui, Zhipeng Chen, Siqi Bao, and Wanxiang Che. Continual learning for visual question answering: A survey. arXiv preprint arXiv:2306.05214, 2023.
[226] Denny Britz. Massive: A massive multitask benchmark for language understanding. arXiv preprint arXiv:2205.05633, 2022.
[232] Zhiyuan Liu, Yuxuan Lai, Yijia Liu, Jieyu Zhao, and Maosong Sun. Pre-trained models for natural language processing: A survey. Science China Information Sciences, 63(1):1–1, 2020.