关于大模型「越狱」的多种方式,有这些防御手段
关于大模型「越狱」的多种方式,有这些防御手段
随着人工智能技术的快速发展,大语言模型(LLMs)和视觉语言模型(VLMs)在多个领域展现出强大的能力。然而,随之而来的安全问题也日益凸显。近期,来自伊利诺伊大学香槟分校等多所高校的研究者发布了一篇综述,详细探讨了LLMs和VLMs的越狱现象及其防御机制。
在上述例子中,用户输入一个恶意问题(蓝色所示),通常而言,大语言模型会拒绝回答此类问题。然而,当攻击者增加一个精心制作的越狱前缀(黄色所示),大语言模型将会对恶意问题进行详细的解答。同样,防御者可以通过增加一些安全提示(红色所示),提醒大语言模型重新思考所给出的答案,中止恶意回复。
越狱分类
研究者将LLMs的越狱现象细分为5种类型,VLMs的越狱现象细分为3种类型:
LLMs
梯度攻击(Gradient-based Attacks)
梯度攻击通过利用模型的梯度信息,生成有害响应。例如,使用梯度坐标贪婪算法(GCG)生成后缀,使模型生成有害内容。此方法通过梯度优化生成能避开模型检测的提示,从而使LLM输出有害的响应。此类攻击常用于测试模型的安全性和鲁棒性,研究者通过此类攻击可以发现模型的潜在漏洞,并进行相应的修复和优化。进化攻击(Evolutionary-based Attacks)
进化攻击使用遗传算法生成对抗性提示,优化语义相似性、攻击效果和流畅性。例如,FuzzLLM通过随机组合模板、约束和问题集生成攻击指令。这些方法使用进化策略逐步改进提示,以找到最有效的攻击手段。进化攻击特别适合在黑盒环境中使用,即攻击者对模型内部结构和参数未知的情况下,也能进行有效攻击。演示攻击(Demonstration-based Attacks)
演示攻击通过创建特定的系统提示,指示LLMs生成预期的响应。这些方法通常是硬编码的,提示经过精心设计以引导模型生成所需的响应。例如,DAN方法通过预设的对话框架,使模型在“开发者模式”下生成本不应生成的内容。演示攻击利用模型的上下文学习能力,通过提供一系列示例,使模型更容易产生目标响应。规则攻击(Rule-based Attacks)
规则攻击通过预定义的规则将恶意成分分解并重定向。攻击者设计复杂的规则,隐藏恶意内容。例如,通过词汇替换将有害意图编码为看似正常的内容,从而绕过模型的检测。这类攻击方法特别适用于绕过简单的基于关键字的检测系统,使攻击内容在输入时显得无害。多代理攻击(Multi-agent-based Attacks)
多代理攻击利用多个LLMs合作,生成、组织和改进越狱提示。这些方法通过模拟多模型协作的方式,提高越狱攻击的效果。例如,PAIR方法利用多个代理模型生成和评估提示,不断优化攻击策略。这种方法特别适合用于需要迭代改进的攻击场景,通过多次尝试和反馈,找到最有效的攻击手段。
VLMs
提示到图像注入的越狱攻击(Prompt-to-Image Injection Jailbreaks)
通过将恶意提示注入到图像生成过程中来绕过模型的安全机制。攻击者设计特定的文本提示,使模型生成含有不良或不符合伦理的图像。例如,攻击者可以利用一些敏感词汇或语句来引导模型生成攻击性或误导性的图像。提示-图像扰动注入越狱攻击(Prompt-Image Perturbation Injection Jailbreaks)
提示-图像扰动注入越狱攻击结合了文本提示和图像扰动,通过在输入提示中加入微小的扰动,使模型生成错误或有害的响应。例如,攻击者可以在图像中加入几乎不可见的像素变化,同时调整文本提示,以引导模型生成偏离预期的描述或内容。这种方法利用了模型对微小变化的敏感性,使其难以检测和防御。代理模型迁移越狱攻击(Proxy Model Transfer Jailbreaks)
代理模型迁移越狱攻击利用代理模型进行攻击,即在较小的代理模型上训练和优化攻击,然后将其转移到目标模型上。攻击者在代理模型上进行大量试验,找到有效的攻击方式,再将这些攻击应用到目标模型上。此类攻击可以有效绕过目标模型的安全机制,因为代理模型和目标模型可能共享相似的弱点和漏洞。
防御机制
研究者回顾并分类了各种防御策略,发现LLMs和VLMs有着类似的防御机制,强调了统一方法以应对这些越狱漏洞的必要性。主要防御机制包括:
提示检测(Prompt Detection-based Defenses)
提示检测基于输入提示的特征,如困惑度(Perplexity)和长度,评估提示的有害性。例如,通过困惑度计算器LLM检测输入提示的困惑度,判断其是否安全。提示检测是最早的防御策略之一,利用模型对高困惑度提示的不敏感性来判断提示的安全性。提示扰动(Prompt Perturbation-based Defenses)
提示扰动通过对输入提示进行修改,破坏其恶意意图。例如,通过语义扰动和重新分词技术生成多个变体,评估每个变体的响应是否安全。此类方法利用了恶意提示对精确结构和词序的依赖,通过随机扰动破坏这些结构,使其难以成功执行攻击。演示防御(Demonstration-based Defenses)
演示防御通过设置安全的系统提示,引导LLM生成安全响应。例如,使用自我提醒提示模型生成安全的响应。演示防御利用了模型的上下文学习能力,通过提供正面示例,增强模型对安全响应的倾向。生成干预(Generation Intervention-based Defenses)
生成干预通过调整LLM的响应生成过程,确保输出的安全性。例如,RAIN方法通过反复生成和评估token,确保生成的内容安全。此类方法在生成过程中实时干预,动态调整输出内容,以避免生成有害响应。响应评估(Response Evaluation-based Defenses)
响应评估通过对生成的响应进行评估,确保其安全性。例如,利用辅助LLM评估响应的有害性,并进行迭代改进。此类方法利用模型对自身生成内容的评估能力,通过不断优化,确保最终输出的安全。模型微调(Model Fine-tuning-based Defenses)
模型微调通过调整LLM的内部参数,增强其安全性。例如,通过在混合数据上训练模型,使其对有害内容更加敏感,从而生成更安全的响应。此类方法直接改变模型的行为,使其在面对恶意提示时能够做出更安全的决策。
未来研究方向
研究者提出了几个未来研究方向:
多模态越狱攻击与防御
随着多模态AI系统的快速发展,如何在结合文本和图像的环境中进行越狱攻击并有效防御成为一个重要课题。未来研究应重点关注多模态模型中的越狱技术,包括如何利用视觉和文本输入的协同作用来规避安全机制。同时,需要开发专门针对多模态系统的防御策略,以确保这些系统在处理复杂任务时的安全性。自动化越狱检测与修复
现有的越狱检测方法大多依赖于手工设计的规则和特征,效率较低且难以适应不断变化的攻击手段。未来研究可以探索利用机器学习和深度学习技术,开发自动化的越狱检测与修复系统。这些系统应能够实时检测并修复潜在的越狱攻击,提升模型的自我保护能力。强化学习在越狱防御中的应用
强化学习(Reinforcement Learning, RL)在越狱防御中的应用具有广阔前景。通过RL,模型可以在不断的交互中学习如何识别和防御越狱攻击。例如,利用RL技术,模型可以动态调整其内部参数和响应策略,以应对不同类型的攻击。未来研究应深入探索RL在越狱防御中的应用,并开发相应的算法和工具。越狱攻击的伦理与法律研究
随着越狱技术的不断发展,其潜在的伦理和法律问题也逐渐显现。未来研究应关注越狱攻击的伦理和法律影响,包括如何制定相关法规和政策来规范越狱行为。此外,还需要探索如何在技术和法律层面有效平衡创新与安全,确保AI技术的可持续发展。开放与封闭模型的安全对比研究
当前的研究多集中于开放源代码的模型,而对封闭源代码模型的研究相对较少。未来应更多关注开放与封闭模型在安全性方面的差异,研究如何在封闭环境中实现高效的安全防御。同时,还需探索开放模型社区的协作机制,以共享和推广有效的防御策略。用户教育与防护
除了技术层面的防御,用户教育也是防范越狱攻击的重要环节。未来研究应开发针对不同用户群体的教育资源,提高用户对越狱攻击的认知和防范能力。通过增强用户的安全意识,可以有效减少越狱攻击的成功率,从而提升整体系统的安全性。
总结来看,LLMs和VLMs的越狱现象和防御机制有许多共性和差异。共性源于它们都基于深度学习技术和类似的神经网络结构,且主要处理自然语言内容,因此在面临梯度攻击、进化攻击等威胁时表现出相似的脆弱性。防御策略如提示检测、提示扰动、生成干预、响应评估和模型微调在两者中也有广泛应用。然而,VLMs由于需要处理图像和文本的组合输入,其攻击手段更为复杂,包括Prompt-to-Image Injection和Prompt-Image Perturbation Injection等多模态攻击。防御机制也因此更复杂,需要同时考虑视觉和语言输入的特性。VLMs的训练成本较高,Proxy Model Transfer Jailbreaks在这种情况下更为常见,攻击者利用代理模型优化攻击,再将其应用于目标模型。此外,LLMs和VLMs在应用场景上有所不同,LLMs主要用于文本生成和对话系统,而VLMs则用于图像生成和图文理解任务。这些共性和差异为理解和应对AI模型的安全威胁提供了重要的洞见,未来研究应继续关注这些方面,以开发更有效的防御策略,确保AI技术的安全应用。
论文地址:https://arxiv.org/pdf/2407.01599