论文解读 | KDD2024 基于多粒度提示的个性化联邦持续学习
论文解读 | KDD2024 基于多粒度提示的个性化联邦持续学习
个性化联邦持续学习(Personalized Federated Continual Learning,简称PFCL)是一种新的实用场景,在共享和个性化知识方面面临更大的挑战。PFCL不仅依赖于全局时空视角下的知识融合进行服务器聚合,还需要根据本地需求对每个客户端的模型进行改进。无论是在个性化联邦学习(Personalized Federated Learning,简称PFL)还是联邦持续学习(Federated Continual Learning,简称FCL)中,现有方法都忽视了知识多粒度表示的重要性,本文首次尝试从符合人类认知“大范围优先“的视角出发,通过模仿人类渐进式多粒度认知过程,构建时空多粒度知识空间,解决了联邦持续学习的时空灾难性遗忘(Spatial-Temporal Catastrophic Forgetting,简称STCF)与个性化需求等问题。为此,本文提出了一种称为多粒度提示(Prompt)的新概念,即通过相同模型学习过程获得的粗粒度全局提示,以及用于个性化泛化表示的细粒度本地提示。前者侧重于高效传输共享的全局知识,避免空间遗忘,后者强调特定学习个性化的本地知识以克服时间遗忘。此外,本文还设计了一种选择性提示融合机制,用于聚合来自不同客户端的全局提示中提取的知识。通过仅融合粗粒度的相关提示知识,本文实现了客户端之间共同知识的传输和优化,进一步提高了个性化性能。广泛的实验表明,所提出的方法在解决STCF以及提高个性化性能方面的有效性。
基本概念
持续学习
持续学习的核心目标是模拟个体人类的认知发展过程。人类在成长过程中不断学习,其中许多早期学到的知识具有长期甚至永久的价值。持续学习的目标是使神经网络能够模仿人类持续学习的能力,逐步完善和提高自身的性能。因此,持续学习更侧重于模拟个体在一生中积累和运用知识的过程。
联邦学习
联邦学习的核心理念是“数据不动,模型动”,即数据保留在原地,而模型在数据之间移动。这一概念最初旨在解决数据集中处理的隐私和安全问题,允许数据在不被直接访问的情况下被利用。目前,联邦学习更侧重于实现群体智慧的协同,它模拟了人类社会中知识传递和交互的过程。在这种学习模式下,重点在于促进个体之间以及不同模型之间的知识交流。
联邦持续学习
联邦学习侧重于群体知识的整合,是一种并行的学习过程。它通过在多个数据源之间共享模型学习,实现知识的集成。相反,持续学习则专注于个体的知识积累,是一种串行的学习过程,强调在不同时间点上个体知识的聚合。基于这两种不同的知识融合和集成方式,我们可以认为持续学习是时间维度上的联邦学习,而联邦学习则是空间维度上的持续学习。
本文自然而然地将这两种学习方式结合起来,提出了一种新的联邦智能范式。这一范式基于时空知识的双维度融合,以及个体与群体之间的双向促进。联邦持续学习在日常生活中有许多实际应用,研究生和博士生的组会就是一个典型例子。在第一次组会上,每位学生都带来了自己的研究课题,这可以看作是一个联邦学习的过程。在这一过程中,学生之间以及学生与导师之间进行交流和讨论,共享和整合各自的知识。到了第二次组会,第一位学生在持续学习的基础上,对自己的初步研究有了更深入的理解,并将其发展到更高级的应用。同时,他也吸收了其他学生关于多粒度认知和联邦学习的知识。最后一位学生原本专注于联邦学习,但在第一次组会后,他将第一位学生的知识融入自己的研究中,形成了联邦持续学习的初步理论。因此,我们可以认为联邦持续学习更贴近现实世界的需求,并且更符合人类社会中知识的传承和发展。
三大挑战
本文提出了联邦持续学习面临的三大挑战:首先,如何在客户端内部进行持续学习以减少时间遗忘;其次,如何在不同客户端间聚合知识时避免空间遗忘;最后,如何确保聚合后的知识更好地满足本地化需求。
基于多粒度认知的联邦持续学习
为什么会发生遗忘
遗忘现象在神经网络中发生的原因,根据王国胤教授的文献,可以归结为神经网络提取的知识过于细粒度。现有的分类器通常基于各种点输入,而卷积神经网络(CNN)则基于单个像素点进行分析。这种细粒度的知识提取方式意味着,即使是微小的数据变化也可能在最基础的层面上引起模型知识的变化,从而导致遗忘。例如,如果两个模型分别提取了细粒度的特征,如“卷毛”、“黄色”、“短直毛”和“黑白色”,这些特征虽然具体,但可能缺乏泛化能力。相比之下,人类在认知过程中通常首先识别物体的大致轮廓,如“四条腿的狗”,然后再关注更具体的细粒度特征,如“毛茸茸”、“卷毛”和“黄色”。如果模型能够从粗到细地提取多粒度的知识,那么在知识融合和互补方面可能会更加有效,能够在不同的粒度层面上找到共性和差异性,从而减少遗忘的发生。
多粒度联邦持续学习
将多粒度思想应用于联邦学习中,可以有效地将本地特有的知识划分为两种类型:粗粒度的通用知识和细粒度的个性化知识。粗粒度的通用知识是与时空无关的,可以被任何客户端直接使用,而细粒度的个性化知识则与特定的时空背景相关联。例如,可以从熊和鱼的特征中提取出特定的细粒度特征。粗粒度和细粒度知识之间存在一种层级关系,细粒度的个性化知识可以在粗粒度知识的基础上进行个性化处理,从而实现更精准的知识表示和应用。在联邦学习框架中,服务器的角色是进行知识聚合和参数聚合。如果只上传粗粒度的知识,这将带来几个优势:首先,可以降低通讯成本;其次,由于粗粒度知识与时空无关,其聚合有助于保护隐私;最后,这种方式还能避免空间上的遗忘,防止细粒度知识的不必要融合,从而在联邦学习中实现更有效的知识共享和隐私保护。
怎样构建多粒度知识空间
在联邦持续学习中构建多维度空间的问题,可以通过借鉴人类知识传输的过程来解决。首先,认识到共同语言体系在知识传输中的关键作用。正如国际交流中英语作为通用语言促进了跨文化沟通,我们在联邦学习中需确立一套“通用粗粒度知识框架”,作为知识传输的桥梁,确保不同背景的成员能有效共享与理解基础信息。其次,深化到个性化知识构建的层面。正如文学作品的多元解读,每位读者在心中塑造出独特的哈姆雷特形象,联邦成员在吸收通用知识后,应鼓励其结合自身经验、文化背景等,将粗粒度知识内化为个性化的知识体系。这一过程促进了知识的深度消化与创新应用,形成了各具特色的“个性化粗粒度知识”。
动机与框架
此框架的动机在于:促使客户间共享一个预先训练好的模型,该模型如同跨文化交流中的“英语”,作为共通语言。首先,利用预训练的Vision Transformer(ViT)技术提取粗粒度的全局提示,这些提示构成了知识交流的基础框架。随后,针对不同客户的本地需求,在这些粗粒度提示上叠加细粒度的本地提示,以实现模型的个性化适配与优化。这一过程可以形象地比喻为:我们先以“英语”撰写了基础性的笔记或书籍,随后这些资料在客户间流通。每位客户在收到这些资料后,会根据自身的具体情境和需要,添加细粒度的知识与理解,使模型在本地环境中得到更深入的融合与应用。从下图可以看到,该框架精心设计为三大核心组件:一是粗粒度的全局提示模块,它负责提供普遍适用的知识框架;二是细粒度的本地提示模块,专注于增强模型对特定任务的适应性;最后是全局提示聚合服务器,它扮演着协调者的角色,负责收集、整合并优化来自各客户端的细粒度信息,以反哺全局提示模块,形成持续学习与进化的闭环。
主要方法
在第一部分,主要专注于粗粒度提示的训练。作者将原始图像转换为Patch Embedding,并利用Query Function从库中选取适宜的粗粒度提示,将其嵌入至Patch Embedding后,实现类似于图像增强效果,确保预训练大模型的表征能力能够被有效使用。此过程中,该方法冻结了原始图像的一半及模型全层次,仅训练分类头与粗粒度提示,以确保在共享ViT模型下,各客户端能维持知识空间一致性,促进提示的跨客户端利用。接下来,基于已应用的粗粒度提示,将采用patch embedding结合local query方式,选定一个class-wise的local prompt作为细粒度提示。此提示被整合至ViT的multi-head attention layer,实现对模型的微调,专注于提取本地任务特征。具体来讲,仅对multi-head self-attention layer及其细粒度提示进行训练,以在粗粒度基础上增强对本地任务的适应性。在服务器的聚合过程中,作者构建了一个基于知识蒸馏的粗粒度提示融合流程体系。服务器持有一部分代理数据集,利用这些数据,服务器从每个客户端上传的提示中挑选出一个相应的提示,并在这些已选的提示中进一步筛选出最终的提示。在原始图像上添加框架后,针对原始图像特征进行处理,生成三个特征。随后,采用MSE损失计算这三个特征间的差异,并通过反向传播优化损失,旨在将各特征有效融合于单一提示中,以规避不相关信息导致的知识冗余与遗忘问题。
实验
在接下来的实验中,本文首先对当前联邦持续学习方法进行了对比分析。此外,还针对持续学习中采用提示的L2P与DualP等经典方法进行了适应性改造。结果显示,在同步与异步的联邦持续学习环境中,本文方法均展现出显著优势。文章设计了两项新指标以评估时空知识的保留度:空间知识保留度,通过比较聚合后全局模型在本地任务上的测试效果与聚合前本地模型的表现来衡量;时间知识遗忘功能,则沿用传统遗忘律作为衡量标准。研究结果显示,在四个任务中,无论是时间还是空间知识保留度均接近百分之百,表明所提方法能够有效保留本地提取的知识,在聚合或持续学习过程中无显著知识损失。