登上Nature的idea!强化学习之父发文,持续学习才是未来大势所趋!
登上Nature的idea!强化学习之父发文,持续学习才是未来大势所趋!
近日,强化学习之父Richard Sutton在研讨会上分享了他团队在权威科学期刊Nature上发表的最新研究成果《Loss of Plasticity in Deep Continual Learning》。该论文强调,以往深度强化学习的核心在本质上并不适应动态环境中持续学习的需求。提倡借助一种全新的深度学习模式——持续学习,来解决这一问题。
可以看到,持续学习已成为人工智能领域的新焦点。借助持续学习的能力,模型能够持续不断地吸收新知与信息,即便在面对复杂多变的任务时,也能展现出稳定的性能!
此外,持续学习还能够实现知识的迁移和融合,提高模型的泛化能力和应用价值。
Loss of Plasticity in Deep Continual Learning
本文系统地展示了标准的深度学习方法在持续学习环境中逐渐丧失可塑性,即随着新数据的不断训练,网络的学习能力逐渐下降,最终表现不优于浅层网络。研究使用了经典的ImageNet数据集和强化学习问题,涵盖了广泛的网络架构和学习算法。
研究表明,只有通过引入多样性的算法(如持续反向传播算法)才能维持网络的长期可塑性。
创新点
- 提出了持续反向传播算法,通过随机重新初始化一小部分较少使用的单元来维持网络的可塑性。
- 首次系统地证明了标准深度学习方法在持续学习环境中会逐渐丧失可塑性。
- 发现了L2正则化等显式保持网络权重较小的算法可以在多个任务中维持可塑性并提高性能。
Exploring the Stability Gap in Continual Learning: The Role of the Classification Head
本文探讨了持续学习中的稳定性差距现象,特别是分类头在这一现象中的作用。通过引入最近均值分类器(NMC),研究发现NMC不仅提高了最终性能,还显著增强了训练稳定性,并减少了任务近期偏差。
创新点
- 首次从网络不同部分的角度探讨了稳定性差距现象。
- 使用最近均值分类器(NMC)作为工具,分析了骨干网络和分类头对稳定性差距的影响。
- 展示了NMC在多种持续学习基准上提高了训练稳定性和最终性能。
FPPL: An Efficient and Non-IID Robust Federated Continual Learning Framework
本文提出了一种名为FPPL(Federated Prototype-Augmented Prompt Learning)的高效且非独立同分布(Non-IID)鲁棒的联邦持续学习框架。该框架通过在客户端和服务器端分别利用融合函数和全局原型,有效解决了持续学习中的灾难性遗忘问题,并减轻了非独立同分布数据带来的性能下降。
创新点
- 引入了基于预训练Transformer的提示调优,消除了重演机制的需求,减少了通信成本。
- 利用轻量级原型来解决联邦学习中的非独立同分布问题,通过轻量级传输稳定本地训练并缓解全球灾难性遗忘。
- 设计了基于本地原型的分类器去偏机制,进一步提升了模型的非独立同分布鲁棒性。
Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning
本文提出了一种名为Mamba-CL的方法,通过在空域中更新参数来优化大规模Mamba基础模型中的核心状态空间模型(SSMs),从而在持续学习(CL)中减少灾难性遗忘。该方法通过理论推导出四个关键的时间不变参数的一致性条件,并采用空域投影技术高效实现参数正交更新。
创新点
- 首次将正交投影引入Mamba模型用于持续学习,确保Mamba模块在不同任务中的输出保持一致,减轻灾难性遗忘。
- 理论推导出SSMs中四个充分一致性条件,并基于这些条件设计了空域投影方法,实现高效的梯度正交投影。
- 在多个类增量基准数据集上验证了Mamba-CL的有效性,展示了其在缓解灾难性遗忘方面的优越性能。