新的越狱技术“坏李克特评判官”威胁大语言模型的安全性
新的越狱技术“坏李克特评判官”威胁大语言模型的安全性
网络安全研究人员发现了一种新的越狱技术,能够绕过大型语言模型(LLM)的安全协议以生成潜在有害的响应。这种名为"Bad Likert Judge"的多轮(或多次)攻击由Palo Alto Networks Unit 42的研究人员Yongzhe Huang、Yang Ji、Wenjun Hu、Jay Chen、Akshata Rao和Danny Tsechansky揭示。
该方法涉及指示LLM充当评判者,使用Likert量表评分响应的有害性——这是一种测量对陈述的同意或不同意的评级系统。随后,它要求LLM创建包含与这些量表对齐的示例的响应,其中最高Likert分数可能显示有害内容。
随着人工智能的普及,新的安全威胁如提示注入不断出现。这些攻击通过精心设计的提示操纵机器学习模型偏离预期行为。一种变体,多次越狱,利用LLM的注意力和上下文能力逐步引导其产生恶意响应,同时规避内部防御。诸如Crescendo和Deceptive Delight的技术说明了这种方法。
Unit 42的最新演示涉及使用LLM作为评判者,通过Likert量表评估响应的有害性,然后生成与不同分数对齐的各类响应。针对来自亚马逊网络服务、谷歌、Meta、微软、OpenAI和NVIDIA的六个先进LLM进行的测试表明,攻击成功率(ASR)比普通提示增加了超过60%。
测试的类别包括仇恨、骚扰、自残、色情内容、无差别武器、非法活动、恶意软件生成和系统提示泄漏。研究人员指出,利用LLM对有害内容的理解和评估能力,大大提高了绕过安全协议的可能性。
内容过滤可以使所有测试的模型的ASR平均降低89. 2个百分点,强调在部署LLM时采用强大的过滤措施的重要性。这一发展紧随《卫报》的一份报告后,该报告显示,通过隐藏内容来概括网页,OpenAI的ChatGPT可能被欺骗以生成误导性摘要。这些方法可能导致ChatGPT在评估产品时偏向正面,即便有负面评论,因为仅通过隐藏文本就可以扭曲其摘要。
新闻来源:帕洛阿尔托网络公司42单元的研究人员介绍了一种名为“Bad Likert Judge”的方法,该方法旨在绕过大型语言模型(LLMs)的安全机制并生成有害内容。此技术通过使用利克特量表进行多步骤攻击,以利用被标记为高风险的响应。
人工智能的进步带来了针对机器学习模型的新提示注入攻击,这些攻击使用战略性设计的提示。多次提示绕过是其中一种方法,它使用长提示序列来悄悄激活LLMs并规避安全措施。Crescendo和Deceptive Delight等技术就是这种方法的例子。
42单元将利克特量表技术应用于来自亚马逊、谷歌、Meta、微软、OpenAI和NVIDIA等领先公司的LLMs。他们发现,与标准提示相比,攻击成功率(ASR)提高了60%,尤其是在仇恨言论和非法活动等领域。然而,强大的内容过滤器显著降低了ASR,下降了约89.2个百分点,强调了有效过滤系统的重要性。
这些结果与《卫报》的报告一致,报告中指出了AI模型,包括OpenAI的ChatGPT的漏洞。这些系统可以通过隐藏文本进行操控,导致误导性结果,暴露出其对复杂攻击的易感性。