多轮对话场景下大语言模型Prompt泄露攻击与防御研究
多轮对话场景下大语言模型Prompt泄露攻击与防御研究
Salesforce AI Research 最近发布了一项重要研究,揭示了大型语言模型(LLMs)在多轮对话场景中面临的新威胁:提示泄露攻击。这项研究不仅评估了多种黑盒和白盒防御策略的效果,还发现结合使用查询重写和结构化响应等方法可以显著降低攻击成功率。
研究背景
大型语言模型(LLMs)近年来备受关注,但它们面临着一个重大的安全挑战,即提示泄露。这种漏洞允许恶意行为者通过有针对性的对抗性输入从 LLM 提示中提取敏感信息。这个问题源于 LLM 中安全训练和指令遵循目标之间的冲突。提示泄露会带来重大风险,包括系统知识产权、敏感上下文知识、风格指南,甚至是基于代理的系统中的后端 API 调用的泄露。由于其有效性和简单性,再加上集成了 LLM 的应用程序的广泛采用,这种威胁尤其令人担忧。
虽然之前的研究已经检查了单轮交互中的提示泄露,但更复杂的多轮场景仍未得到充分探索。除此之外,迫切需要强大的防御策略来减轻这种漏洞并保护用户信任。
研究方法
Salesforce AI Research 的这项研究采用标准化的任务设置来评估各种黑盒防御策略在减轻提示泄露方面的有效性。该方法涉及用户(充当攻击者)和 LLM 之间进行多轮问答交互,重点关注四个现实领域:新闻、医疗、法律和金融。这种方法允许对不同环境中的信息泄露进行系统评估。
LLM 提示被分解为任务指令和特定领域的知识,以观察特定提示内容的泄露情况。实验涵盖了七个黑盒 LLM 和四个开源模型,提供了对不同 LLM 实现中漏洞的全面分析。为了适应类似多轮 RAG 的设置,研究人员采用了一种独特的威胁模型,并比较了各种设计选择。
攻击策略包括两个回合。在第一回合中,系统会收到一个特定领域的查询以及一个攻击提示。第二回合引入了一个挑战者话语,允许在同一对话中进行连续的泄露尝试。这种多轮方法可以更真实地模拟攻击者如何在现实世界的 LLM 应用程序中利用漏洞。
研究发现
该研究方法利用模型中谄媚行为的概念来开发更有效的多轮攻击策略。这种方法将平均攻击成功率 (ASR) 从 17.7% 显着提高到 86.2%,在 GPT-4 和 Claude-1.3 等高级模型上实现了几乎完全的泄露 (99.9%)。为了应对这种威胁,该研究实施并比较了应用程序开发人员可以采用的各种黑盒和白盒缓解技术。
防御策略的一个关键组成部分是实现查询重写层,这在检索增强生成 (RAG) 设置中很常见。每种防御机制的有效性都经过独立评估。对于黑盒 LLM,查询重写防御在减少第一回合的平均 ASR 方面最为有效,而指令防御在减轻第二回合的泄露尝试方面更为成功。
将所有缓解策略全面应用于实验设置后,黑盒 LLM 的平均 ASR 显着降低,针对所提出的威胁模型降至 5.3%。此外,研究人员还整理了一个对抗性提示数据集,旨在从系统提示中提取敏感信息。然后,该数据集用于微调开源 LLM 以拒绝此类尝试,从而进一步增强防御能力。
实验设置
该研究的数据设置涵盖四个常见领域:新闻、金融、法律和医疗,选择这些领域是为了代表 LLM 提示内容可能特别敏感的一系列日常和专业主题。每个领域创建了一个包含 200 个输入文档的语料库,每个文档都被截断至大约 100 个单词,以消除长度偏差。然后使用 GPT-4 为每个文档生成一个查询,从而为每个领域生成一个包含 200 个输入查询的最终语料库。
任务设置使用 LLM 代理模拟实际的多轮问答场景。采用精心设计的基线模板,该模板由三个部分组成:(1) 提供系统指南的任务指令 (INSTR),(2) 包含特定领域知识的知识文档 (KD),以及 (3) 用户(攻击者)输入。对于每个查询,都会检索两个最相关的知识文档,并将其包含在系统提示中。
本研究评估了十种流行的 LLM:三种开源模型(LLama2-13b-chat、Mistral7b、Mixtral 8x7b)和七种通过 API 访问的专有黑盒 LLM(Command-XL、Command-R、Claude v1.3、Claude v2.1、GeminiPro、GPT-3.5-turbo 和 GPT-4)。这种多样化的模型选择允许对不同 LLM 实现和架构中的提示泄露漏洞进行全面分析。
防御策略
该研究针对多轮威胁模型采用了一套全面的防御策略,涵盖了黑盒和白盒方法。黑盒防御假设无法访问模型参数,包括:
- 上下文示例
- 指令防御
- 多轮对话分离
- 三明治防御
- XML 标记
- 使用 JSON 格式的结构化输出
- 查询重写模块
这些技术旨在供 LLM 应用程序开发人员轻松实现。此外,还探讨了涉及开源 LLM 安全微调的白盒防御。
研究人员独立评估了每种防御措施,并以各种组合进行评估。结果显示,不同 LLM 模型和配置的有效性各不相同。例如,在某些配置中,闭源模型的平均 ASR 在不同回合和设置中的范围为 16.0% 到 82.3%。
该研究还表明,开源模型通常表现出更高的漏洞,平均 ASR 范围为 18.2% 到 93.0%。值得注意的是,某些配置表现出显着的缓解效果,尤其是在交互的第一轮中。
研究结论
该研究的结果揭示了 LLM 中提示泄露攻击的重大漏洞,尤其是在多轮场景中。在没有防御的基线设置中,所有模型在第一轮的平均 ASR 为 17.7%,在第二轮中急剧增加到 86.2%。这种大幅增加归因于 LLM 的谄媚行为和攻击指令的重申。
不同的防御策略表现出不同的有效性:
- 查询重写在第一轮对闭源模型最有效,将 ASR 降低了 16.8 个百分点。
- 指令防御对第二轮挑战者最有效,将闭源模型的 ASR 降低了 50.2 个百分点。
- 结构化响应防御对第二轮的开源模型特别有效,将 ASR 降低了 28.2 个百分点。
结合多种防御措施产生了最佳结果。对于闭源模型,同时应用所有黑盒防御措施将第一轮的 ASR 降低到 0%,第二轮降低到 5.3%。开源模型仍然更容易受到这些攻击,即使应用了所有防御措施,第二轮的 ASR 仍为 59.8%。
该研究还探讨了开源模型 (phi-3-mini) 的安全微调,该模型在与其他防御措施结合使用时显示出可喜的结果,实现了接近于零的 ASR。
这项研究提出了关于 RAG 系统中提示泄露的重要发现,为增强闭源和开源 LLM 的安全性提供了重要见解。它开创性地对提示内容泄露进行了详细分析,并探索了防御策略。研究表明,LLM 谄媚会增加所有模型中提示泄露的漏洞。值得注意的是,将黑盒防御与查询重写和结构化响应相结合,有效地将闭源模型的平均攻击成功率降低到 5.3%。然而,开源模型仍然更容易受到这些攻击。有趣的是,该研究发现 phi-3-mini(一种小型开源 LLM)在与黑盒防御结合使用时对泄露尝试具有特别强的弹性,这为安全 RAG 系统开发指明了有希望的方向。