问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

复旦大学团队提出动态异构冗余架构,增强深度学习安全性

创作时间:
作者:
@小白创作中心

复旦大学团队提出动态异构冗余架构,增强深度学习安全性

引用
腾讯
1.
https://new.qq.com/rain/a/20250331A05FXY00

近日,Security and Safety(S&S,《一体化安全(英文)》)在线发表了复旦大学张帆团队的研究成果。该文章被收录在人工智能安全专题中(Security and Safety (S&S) 2024年第四期目录)。

随着深度学习(DL)模型的飞速发展,其安全问题也日益凸显,尤其是对抗性攻击和后门攻击等威胁。尽管当前的研究在攻击与防御之间不断博弈,但这种动态平衡似乎难以从根本上解决安全问题。本文指出,这背后的原因在于DL模型本身存在不可解释性、不可识别性等固有缺陷,文章将这些问题统称为“内生安全与保障(ESS)问题”。为应对这一挑战,作者提出了一种基于动态异构冗余(DHR)架构的解决方案,通过引入多样性来增强DL系统的安全性。经过在多个DL应用领域的案例研究和实验验证,结果表明,基于DHR架构的系统在安全性方面显著优于现有的防御策略。


图1深度学习内生安全问题分类图

基于内生安全(ESS)理论,对深度学习安全问题根源进行剖析,将ESS问题进一步细分为个性问题与普遍问题,具体如下:

(一)个性问题:归因于深度学习算法的 “基因缺陷”,体现在算法的 “三无能”,构成深度学习模型的结构性矛盾:

  • 不可解释性:因深度学习学习与推理过程的黑箱本质,其从训练数据中学习知识和规则的过程不明,内部学习过程难以精确描述与理解。基于数据驱动的训练和拟合机制,在数据真实性、完整性及模型稳健性、泛化性等方面易出问题,但定位困难;
  • 不可识别性:源于当前深度学习技术的数据驱动学习框架,模型基于训练数据进行预测,训练数据的质量和来源影响输出。模型缺乏识别输出正确与否、公平与否的能力,与人类伦理标准存在差异,难以评估输出内容,目前无有效技术解决;
  • 不可辨识性:深度学习模型擅长归纳推理,但在理解、判断陌生现象及预测中长期变化上存在困难,因其不能生成新知识,仅能从已知数据提取知识模式,与人类举一反三的能力有差距,无法预见或推断不确定的安全威胁。

(二)普遍问题:指深度学习系统与其他信息系统类似,因对设备和环境的外部依赖而产生的问题。AI应用系统依赖物理信息系统,其算法模型 “基础” 面临常见ESS问题。国内外研究表明,主流深度学习框架依赖的软硬件环境存在广泛安全漏洞,软件方面,如TensorFlow等平台有诸多安全漏洞,可导致系统不稳定等问题;硬件方面,AI系统主要依赖的GPU硬件产品也有安全漏洞,如 “Meltdown” 和 “Specter” 漏洞,影响众多产品,还可能导致神经网络模型被破坏。


图2人工智能动态异构冗余防御框架原型图

基于动态异构冗余(DHR)架构的AI防御框架主要包含以下结构:通过多个功能等效的神经网络子模型构建异构冗余运行环境。输入代理负责将样本分发给各个子模型进行独立处理,正常样本输入时,各子模型能给出相同或相似结果;而当面对对抗样本时,子模型会产生差异模式输出。这些识别或分类结果进入动态裁决模块,若检测到异常,错误校正输出模块和系统调度模块将被激活,依据特定规则动态替换算法模型,以此避免当前的对抗攻击。该框架的核心在于挖掘和构建神经网络的有效多样性,其关键要素数据集、网络模型和训练方法,都可作为构建异构子模型的切入点。


图3针对多场景的动态异构冗余架构实现案例

文章通过多种方法构建多样性,验证了基于动态异构冗余(DHR)架构在四个场景下的有效性:

(一)对抗防御:通过预处理多样性、权重多样性和数据多样性三种方法增强模型的抗攻击能力。预处理多样性对数据进行不同变换,增加模型处理数据的独特性;权重多样性通过调节训练梯度降低对抗样本的可转移性;数据多样性则通过大数据集多样性训练方法提升模型鲁棒性。这些方法显著增强了模型的抗对抗攻击能力。

(二)后门防御:采用权重多样性、数据多样性和训练多样性三种策略防御后门攻击。权重多样性通过脱敏训练降低模型对后门触发器的敏感性;数据多样性通过改进的数据增强方法擦除中毒模型中的后门;训练多样性则通过集成蒸馏整合多种后门缓解策略。这些方法有效降低了后门攻击成功率,同时保持了模型在干净样本上的性能。

(三)投毒防御:针对图神经网络(GNN)的投毒攻击,提出DHRGNN架构,集成三个异构模型,从图结构和节点特征角度清理扰动并生成鲁棒图。该方法显著提高了模型在对抗攻击下的鲁棒性,性能稳定且优势明显。

(四)真实世界目标检测应用:基于DHR概念开发多样性训练方法,将多个异构模型组合成集成目标检测模型(DEM),并将其与基线集成模型(BEM)进行对比。在白盒和黑盒场景下,通过主流对抗攻击方法测试,DEM在不同数据集和攻击方法下均优于BEM,显著增强了子模型间的抗转移性。在“强网”国际精英挑战赛中,DEM有效抵抗了各种对抗攻击和后门攻击,展示了DHR架构在提升AI模型鲁棒性方面的显著效果。


图4 基于动态异构冗余架构的目标检测系统应用示例图

本案例介绍的基于动态异构冗余(DHR)架构的目标检测系统,是基于DHR概念开发了一种多样性训练方法,将多个异构模型组合成一个集成目标检测模型。通过对该多样性集成模型(DEM)基于主流对抗攻击方法进行攻击测试,并与未使用此训练方法的基线集成模型(BEM)对比效果,结果表明DEM检测性能更优,多样性训练方法能增强集成模型子模型间面对对抗样本时的抗转移性。图中展示了该集成模型针对物理世界中针对 “人” 分类的补丁攻击的防御效果。其中,受攻击模型(a)和参考模型1(b)都未能检测到持有对抗补丁的人,但参考模型2(c)能够正常识别该补丁,说明基于受攻击模型(a)生成的对抗补丁成功迁移到了参考模型1(b),却未能迁移到参考模型2(c),体现出该集成模型对物理对抗攻击的防御有效性。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号