资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大模型越狱攻防三部曲：评估、分析与防御

创作时间:

作者:

@小白创作中心

大模型越狱攻防三部曲：评估、分析与防御

引用

CSDN

https://blog.csdn.net/AITIME_HY/article/details/143278114

近年来，随着大语言模型（LLMs）的广泛应用，如何确保这些模型的安全性和防御其被恶意利用成为一个至关重要的议题。香港科技大学（Guangzhou）USAIL研究团队（团队链接：https://github.com/usail-hkust）致力于探索和解决这一挑战，推出了全新的越狱攻防解决方案——大模型越狱攻防三部曲：评估、分析与防御。该系列研究包含了从越狱攻击评估到深度分析，再到创新防御策略的全方位探索，旨在推动大模型的安全性研究和实践发展。

USAIL团队基于其对越狱攻击与防御机制的深刻理解，依次推出了JAILJUDGE评估基准、JailTrackBench攻击分析系统性框架，以及Continued Adversarial Tuning持续性对抗微调防御策略，通过一整套系统的方法不断提升大语言模型的安全性和鲁棒性。本系列研究不仅为学术界提供了深刻的理论基础，也为工业界提供了可操作的工具和最佳实践，助力企业和研究人员共同应对大语言模型安全挑战，推动人工智能技术更为安全地造福社会。

越狱评估JAILJUDGE：大模型越狱评估的全新基准，提升模型安全性

近年来，随着人工智能的迅猛发展，尤其是大语言模型（LLMs）的广泛应用，保障这些模型的安全性并防止其被恶意利用，成为了至关重要的议题。越狱攻击通过恶意指令诱导模型生成有害或不符合伦理的内容，对模型的安全性和可靠性构成了严重威胁。为应对越狱攻击，各种防御方法不断涌现，形成了一种类似军备竞赛的局面。这种攻击与防御的对抗性研究，极大地推动了大模型的安全性和可靠性。然而，核心问题依然存在：如何准确评估模型是否真正被越狱？越狱评估，即评估越狱尝试是否成功，依赖于对大语言模型响应内容的有害性进行判断，这一任务本质上复杂且充满挑战(如图1所示)。因此，迫切需要一个全面的越狱评估体系，以帮助研究者和开发者了解模型的脆弱性，并持续优化防御能力。

图 1:越狱评估：输入用户问题和模型回答，判断大模型是否被越狱

为此，USAIL团队联合百度搜索团队（https://searchscience.baidu.com/)以及英国伯明翰大学提出了JAILJUDGE，一个全面、严谨的越狱评估基准，旨在弥补现有越狱评估方法的不足，特别是在复杂场景下的表现。JAILJUDGE基准覆盖了广泛的风险场景，以及复杂的案例其中包括对抗性的越狱查询，真实世界的交互，以及多语言等场景。在此基础上，受到法官判案的启发，作者提出了多代理越狱评估框架智能体(JailJudge MultiAgent)，通过多个代理之间的协作实现对越狱判断过程的明确化和可解释性。越狱评估框架智能体中每个代理都有明确的角色分工，例如判断代理、投票代理和推断代理，它们通过合作得出精细化的评估结果，为每次判断提供解释性理由。

借助这种多代理协作的方式给出的可解释理由和越狱评分，作者还开发了一个端到端的越狱判断模型JAILJUDGE Guard，它能够在不需要API调用的情况下提供细粒度的评估（如越狱评分从1到10），并给出推理解释，极大地提升了评估质量和效率，性能超越GPT-4。JAILJUDGE Guard的优势在于其全面的能力评估和高效的推理过程。与现有的最先进模型（如GPT-4、Llama-Guard等）相比，JAILJUDGE Guard在闭源和开源的安全调节模型上的评估表现均达到了最先进的水准。此外，JAILJUDGE Guard还能够以更低的成本和更高的效率实现对模型的全面评估，从而为模型的实际应用提供了强有力的支持。为了进一步展示JAILJUDGE Guard的基础能力，还开发了JailBoost和GuardShield这两个重要工具。JailBoost是一种与攻击者无关的攻击增强器，通过提供越狱评分奖励来优化对抗性指令的生成，从而有效提高攻击成功率。而GuardShield则是一种系统级的越狱防御方法，能够通过检测LLM是否被越狱，生成安全的响应，从而降低模型被攻击的风险。实验结果表明，JailBoost能够在零样本设置下将攻击成功率提高约29.24%，而GuardShield则能够将防御后的攻击成功率从40.46%大幅降低到0.15%。

越狱分析JailTrackBench：越狱攻击的技巧与基准测试

在回答了如何评估大模型的安全后，一个问题随之而来，就是如何分析什么会影响大模型的安全。为此团队从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。目前该论文Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs已经被NeurIPS D&B 2024接收。随着大语言模型（LLMs）在各类任务中的应用不断增加，如何评估这些模型在面对越狱攻击时的表现成为一个重要的研究方向。尽管已有的研究展示了多种越狱攻击的威胁，现有的基准测试通常过于片面，无法全面涵盖攻击和防御两方面的关键因素。在这种背景下，团队还提出了 JailTrackBench，一个涵盖越狱攻击各个方面的系统性基准，旨在为研究者提供更标准化和全面的评估框架。

JailTrackBench （如图8所示）的研究着重于评估不同越狱攻击配置对大语言模型性能的影响，包括攻击者层面（例如攻击者的能力、攻击者预算、对抗性后缀长度）和目标模型层面（例如模型大小、安全对齐情况、系统提示和模板类型）。通过对七种具有代表性的越狱攻击和六种防御方法的实验，JailTrackBench 基准测试涉及约 320 项实验，使用了 50,000 GPU 小时，以标准化的方式对这些攻击进行基准测试。

图 8: JailTrackBench框架

本研究的主要贡献包括以下几点：

多维度攻击评估：从目标模型和攻击者两方面出发，系统性地评估了八个影响越狱攻击的关键因素，包括模型大小、攻击者预算、对抗性后缀长度等。
攻击与防御方法的全面比较：评估了六种常用防御方法在不同越狱攻击下的表现，为将来设计更高效的防御策略提供了重要参考。
标准化基准测试框架：通过对多个基准数据集进行实验，强调了标准化基准测试框架的重要性，以促进社区对越狱攻击的更全面理解。

JailTrackBench 还提出了一些重要的见解，例如：

模型的鲁棒性并不总是与其规模成正比；
微调往往会削弱模型的安全对齐性；
此外，系统安全提示、模板类型等因素对越狱攻击的有效性也有显著影响。

在简单操纵这些不容易被察觉的设定（如表格 6所示），包括攻击者和目标模型，作者发现大模型越狱攻击的成功率可以从 0% ASR（攻击成功率）增加到惊人的 90% ASR（如图 9所示）。这些设定涵盖了多个方面，包括目标模型的规模、安全对齐方式、系统提示的使用以及攻击者的能力和攻击预算。

图 9: 不同技巧组合对越狱攻击成功率的显著影响

越狱防御Continued Adv Tuning：越狱防御的持续性对抗微调

在回答了如何评估和分析大模型的安全性之后，一个问题随之而来，即如何有效防御大模型的越狱攻击。团队从对抗训练的角度进行了探索。虽然对抗训练作为一种广泛应用的防御方法在机器学习的各个领域取得了显著成效，但直接将其迁移到大模型时，却遇到了计算复杂度高（单个对抗样本的优化时间可达20分钟）和泛化能力不足（难以抵御未知攻击等）的问题。为了解决这些挑战，团队提出了一种新的越狱防御策略，即 Continued Adversarial Tuning（持续性对抗微调）。该策略在动态的越狱攻防环境中，通过不断提升模型应对恶意攻击的能力来增强其安全性。现有的防御策略大多依赖静态机制，但随着攻击手段的不断升级，单一的防御措施难以应对复杂多样的攻击。在此背景下，团队提出了 Continued Adversarial Tuning，作为一种持续进化的防御机制，旨在全面提升模型的鲁棒性和适应性。

Continued Adversarial Tuning（如图 11所示）的核心在于通过对抗性的持续微调来逐步增强模型的防御能力。其主要贡献包括：

双阶段对抗调优框架：提出的对抗微调框架分为两个阶段：首先，通过 层次化元通用对抗提示学习 来生成对抗性后缀，以加快恶意提示的创建速度，并通过任务集群对多种恶意行为进行泛化；其次，通过自动对抗提示生成来构建分布外（OOD）对抗提示，模拟最坏情况下的攻击场景，从而增强模型的鲁棒性。
混合训练策略：为了在模型效用和防御稳健性之间取得平衡，采用了一种混合训练策略，确保在提升模型安全性的同时不牺牲其原本的效用。
红蓝军对抗测试：通过模拟红蓝军对抗，将防御方（蓝军）与攻击方（红军）之间的持续对抗过程引入模型训练，以确保模型能够不断适应并抵御新型越狱攻击。

图 11: Continued Adversarial Tuning 框架

实验结果表明，Continued Adversarial Tuning 在不同攻击场景中的表现均显著优于其他防御方法（如表格 8和表格 9 所示）。特别是在应对未知攻击和复杂的多语言环境时，该方法展现出极强的适应性，使得模型在面对攻击时保持了较高的安全性和鲁棒性。

总的来说，Continued Adversarial Tuning展现了其在对抗性场景中的持续防御能力，为应对大模型的越狱攻击提供了一种全新的解决方案。研究表明，越狱攻击的防御不仅需要静态的策略，还需要通过持续对抗训练来增强模型的应变能力，从而确保模型的安全性在攻击者不断升级其攻击手段的情况下依然能够保持领先。

总结和展望

除了对模型的越狱评估和防御，还在研究如何将JAILJUDGE扩展到更多的应用场景中，例如企业应用中的模型安全检测、智能助手的安全性能评估等。相信，JAILJUDGE不仅能够为学术界提供重要的评估工具，还能够在工业界中发挥巨大的作用，帮助企业确保其AI系统的安全性和可靠性。

JAILJUDGE不仅是一个评估工具，更是推动LLMs安全性研究的一大步。通过构建高质量的数据集、多代理框架，以及与攻击和防御结合的创新工具，致力于为LLMs的安全性提供更科学、系统和高效的解决方案。期待通过JAILJUDGE，与学术界和产业界的同仁携手，共同提升大语言模型的安全水平，让人工智能技术造福社会，推动科技进步。团队未来计划进一步扩展JAILJUDGE的功能和应用场景，包括：