新的越狱技术“坏李克特评判官”威胁大语言模型的安全性

创作时间:

作者:

@小白创作中心

新的越狱技术“坏李克特评判官”威胁大语言模型的安全性

引用

来源

https://neuron.expert/news/new-ai-jailbreak-method-bad-likert-judge-boosts-attack-success-rates-by-over-60/10139/zh/

网络安全研究人员发现了一种新的越狱技术，能够绕过大型语言模型（LLM）的安全协议以生成潜在有害的响应。这种名为"Bad Likert Judge"的多轮（或多次）攻击由Palo Alto Networks Unit 42的研究人员Yongzhe Huang、Yang Ji、Wenjun Hu、Jay Chen、Akshata Rao和Danny Tsechansky揭示。

该方法涉及指示LLM充当评判者，使用Likert量表评分响应的有害性——这是一种测量对陈述的同意或不同意的评级系统。随后，它要求LLM创建包含与这些量表对齐的示例的响应，其中最高Likert分数可能显示有害内容。

随着人工智能的普及，新的安全威胁如提示注入不断出现。这些攻击通过精心设计的提示操纵机器学习模型偏离预期行为。一种变体，多次越狱，利用LLM的注意力和上下文能力逐步引导其产生恶意响应，同时规避内部防御。诸如Crescendo和Deceptive Delight的技术说明了这种方法。

Unit 42的最新演示涉及使用LLM作为评判者，通过Likert量表评估响应的有害性，然后生成与不同分数对齐的各类响应。针对来自亚马逊网络服务、谷歌、Meta、微软、OpenAI和NVIDIA的六个先进LLM进行的测试表明，攻击成功率（ASR）比普通提示增加了超过60％。

测试的类别包括仇恨、骚扰、自残、色情内容、无差别武器、非法活动、恶意软件生成和系统提示泄漏。研究人员指出，利用LLM对有害内容的理解和评估能力，大大提高了绕过安全协议的可能性。

内容过滤可以使所有测试的模型的ASR平均降低89. 2个百分点，强调在部署LLM时采用强大的过滤措施的重要性。这一发展紧随《卫报》的一份报告后，该报告显示，通过隐藏内容来概括网页，OpenAI的ChatGPT可能被欺骗以生成误导性摘要。这些方法可能导致ChatGPT在评估产品时偏向正面，即便有负面评论，因为仅通过隐藏文本就可以扭曲其摘要。

新闻来源：帕洛阿尔托网络公司42单元的研究人员介绍了一种名为“Bad Likert Judge”的方法，该方法旨在绕过大型语言模型（LLMs）的安全机制并生成有害内容。此技术通过使用利克特量表进行多步骤攻击，以利用被标记为高风险的响应。

人工智能的进步带来了针对机器学习模型的新提示注入攻击，这些攻击使用战略性设计的提示。多次提示绕过是其中一种方法，它使用长提示序列来悄悄激活LLMs并规避安全措施。Crescendo和Deceptive Delight等技术就是这种方法的例子。

42单元将利克特量表技术应用于来自亚马逊、谷歌、Meta、微软、OpenAI和NVIDIA等领先公司的LLMs。他们发现，与标准提示相比，攻击成功率（ASR）提高了60%，尤其是在仇恨言论和非法活动等领域。然而，强大的内容过滤器显著降低了ASR，下降了约89.2个百分点，强调了有效过滤系统的重要性。

这些结果与《卫报》的报告一致，报告中指出了AI模型，包括OpenAI的ChatGPT的漏洞。这些系统可以通过隐藏文本进行操控，导致误导性结果，暴露出其对复杂攻击的易感性。

热门推荐

核磁共振DWIBS在癌症筛查中的重要意义