问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

新的越狱技术“坏李克特评判官”威胁大语言模型的安全性

创作时间:
作者:
@小白创作中心

新的越狱技术“坏李克特评判官”威胁大语言模型的安全性

引用
1
来源
1.
https://neuron.expert/news/new-ai-jailbreak-method-bad-likert-judge-boosts-attack-success-rates-by-over-60/10139/zh/

网络安全研究人员发现了一种新的越狱技术,能够绕过大型语言模型(LLM)的安全协议以生成潜在有害的响应。这种名为"Bad Likert Judge"的多轮(或多次)攻击由Palo Alto Networks Unit 42的研究人员Yongzhe Huang、Yang Ji、Wenjun Hu、Jay Chen、Akshata Rao和Danny Tsechansky揭示。

该方法涉及指示LLM充当评判者,使用Likert量表评分响应的有害性——这是一种测量对陈述的同意或不同意的评级系统。随后,它要求LLM创建包含与这些量表对齐的示例的响应,其中最高Likert分数可能显示有害内容。

随着人工智能的普及,新的安全威胁如提示注入不断出现。这些攻击通过精心设计的提示操纵机器学习模型偏离预期行为。一种变体,多次越狱,利用LLM的注意力和上下文能力逐步引导其产生恶意响应,同时规避内部防御。诸如Crescendo和Deceptive Delight的技术说明了这种方法。

Unit 42的最新演示涉及使用LLM作为评判者,通过Likert量表评估响应的有害性,然后生成与不同分数对齐的各类响应。针对来自亚马逊网络服务、谷歌、Meta、微软、OpenAI和NVIDIA的六个先进LLM进行的测试表明,攻击成功率(ASR)比普通提示增加了超过60%。

测试的类别包括仇恨、骚扰、自残、色情内容、无差别武器、非法活动、恶意软件生成和系统提示泄漏。研究人员指出,利用LLM对有害内容的理解和评估能力,大大提高了绕过安全协议的可能性。

内容过滤可以使所有测试的模型的ASR平均降低89. 2个百分点,强调在部署LLM时采用强大的过滤措施的重要性。这一发展紧随《卫报》的一份报告后,该报告显示,通过隐藏内容来概括网页,OpenAI的ChatGPT可能被欺骗以生成误导性摘要。这些方法可能导致ChatGPT在评估产品时偏向正面,即便有负面评论,因为仅通过隐藏文本就可以扭曲其摘要。

新闻来源:帕洛阿尔托网络公司42单元的研究人员介绍了一种名为“Bad Likert Judge”的方法,该方法旨在绕过大型语言模型(LLMs)的安全机制并生成有害内容。此技术通过使用利克特量表进行多步骤攻击,以利用被标记为高风险的响应。

人工智能的进步带来了针对机器学习模型的新提示注入攻击,这些攻击使用战略性设计的提示。多次提示绕过是其中一种方法,它使用长提示序列来悄悄激活LLMs并规避安全措施。Crescendo和Deceptive Delight等技术就是这种方法的例子。

42单元将利克特量表技术应用于来自亚马逊、谷歌、Meta、微软、OpenAI和NVIDIA等领先公司的LLMs。他们发现,与标准提示相比,攻击成功率(ASR)提高了60%,尤其是在仇恨言论和非法活动等领域。然而,强大的内容过滤器显著降低了ASR,下降了约89.2个百分点,强调了有效过滤系统的重要性。

这些结果与《卫报》的报告一致,报告中指出了AI模型,包括OpenAI的ChatGPT的漏洞。这些系统可以通过隐藏文本进行操控,导致误导性结果,暴露出其对复杂攻击的易感性。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号