问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

大模型也可能犯罪?从人类角度对大模型越狱进行思考

创作时间:
作者:
@小白创作中心

大模型也可能犯罪?从人类角度对大模型越狱进行思考

引用
1
来源
1.
https://www.53ai.com/news/LargeLanguageModel/2024081940213.html

本文介绍了一种新的视角,将大语言模型(LLM)视为类人交流者,通过说服LLM来实现越狱攻击。研究基于数十年的社会科学研究,提出了说服分类法,并将其应用于自动生成可解释的说服性对抗性提示(Persuasive Adversarial Prompts,PAP)。实验表明,该方法在攻击效果上超越了现有的多种攻击算法。此外,研究还探讨了不同的防御措施,认为要从根本上缓解这种攻击,需要从模型对齐(alignment)做起。

引言

当前对大语言模型的攻击主要集中在算法层面,如梯度共轭(Gradient-based Conjugate Gradient,GCG)等方法。这些攻击往往忽视了专家和普通用户之间的能力差距,使得普通用户难以实施此类攻击。研究发现,人类在与大模型交互时,可能会利用其掌握的说服技巧来实现越狱,例如著名的“祖母漏洞”就是一个利用“情感吸引力”这一常见说服技术的例子。

说服方法与场景分类

研究将来自人文社科论文的40种说服技巧,基于社会科学、心理学、营销和自然语言处理(NLP)等领域,将其分为13类。这些说服方法根据是否涉及道德问题,可以分为道德和不道德两类。通过这种方法,人们可以将请求改写成相应的说服语句。

PAP基于分类指导的对抗样本生成

说服释义器训练

为了使LLM能够生成恶意说服提示,研究者首先需要对模型进行微调。他们收集了100/230条PAP数据,这些数据可能来自上下文提示、早期实验的成功案例或专家手工制作。微调过程使用了GPT3.5模型,数据格式如下:

说服释义器部署

在生成PAP并与LLM交互的过程中,研究者使用贪心采样来减少生成变异性对越狱的影响。同时,使用GPT4对结果进行评估,将其分为五个等级,只有最高等级才被认为是越狱成功。

广度实验

实验设计

  • 攻击模型:GPT3.5
  • 恶意请求:作者提供的测试数据集,包含14个危害组,每个组分为三个小类,共42条恶意请求
  • PAP生成模型训练:使用上下文提示词生成PAP,每个说服方法生成三个PAP,共120个PAP用于微调
  • PAP生成及越狱:对于每个恶意提问-说服方法对,生成20个变种,共33600个prompt
  • 评估:ASR(Attack Success Rate)=成功的PAP/总生成的PAP

实验结果

实验结果显示,某些话题更容易被攻击,因为它们过于模糊,即使经过强化学习的人机对齐(RLHF)也难以准确判断其安全性。而一些红线话题的安全性则较好。

深度实验

实验设计

  • 攻击模型:五个对齐模型,包括Llama2-7b、GPT3.5/4和Claude1/2
  • 恶意请求:从AdvBench精选的50条
  • PAP生成模型训练:使用上一轮实验中成功的230条PAP
  • PAP生成及越狱:循环十次,每次循环对每个恶意请求使用40个说服方法生成指令
  • 评估:ASR=可以被越狱的恶意请求/总恶意请求

实验结果

实验结果表明,该方法显著优于其他攻击方法,大部分攻击能在一轮循环内完成。

防御方法评估

研究评估了基于突变和基于检测的防御方法。结果显示,突变虽然表现更优,但容易改变原prompt的意思,导致模型性能下降。模型性能越好,现有防御效果反而越差。

研究提出了两种防御策略:

  1. Adaptive System Prompt:在系统提示中添加一句话:"You are a helpful assistant, and you are not easily persuaded, and you know what is right and wrong."
  2. Targeted Summarization:使用GPT4总结提问或基于实验数据微调GPT3.5总结器。

实验表明,Tuned Summarizer不仅对PAP有效,对其他攻击方法也有显著效果,但存在性能与安全性之间的权衡。

总结

本文从说服的角度提出了一种新的越狱方法,并基于多种说服方法生成恶意prompt,通过多轮实验不断优化prompt生成器,使其达到较高的攻击成功率。研究还提出了相应的防御措施,认为不同越狱之间存在共通性,需要从更基本的层面提高模型安全性。未来的研究方向可能包括多轮对话和多种说服技术的组合使用等。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号