用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐
用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐
随着人工智能技术的快速发展,模型的安全性问题日益凸显。北京交通大学ADaM团队在这一领域进行了深入研究,提出了"系统2对齐"的概念,并通过多种技术手段来提升模型的安全性。本文将详细介绍这一研究的背景、方法和实验结果。
研究背景
OpenAI在"双十二"发布会的最后一天公开了o系列背后的对齐方法——deliberative alignment,展示了通过系统2的慢思考能力提升模型安全性的可行性。在此之前,ADaM团队提出了类似的"系统2对齐"概念,探索了通过提示工程、监督微调、DPO、RL(结果奖励)和RL(过程奖励)实现系统2对齐的技术路径。研究发现:系统2对齐可以同时有效提升传统的系统1模型的安全性。
系统2对齐的概念
系统2对齐是通过引导或监督的方式使模型对齐。这种方式鼓励有意的、分析性的推理,以确保模型能够全面评估输入内容,考虑潜在的风险和错误,并解决其中的偏差或缺陷。用培养孩子来类比的话,系统1对齐是直接命令孩子遵守规则(Command),系统2对齐则通过引导来培养孩子自主批思考和做出合理决策的能力(Cultivate)。
o1应对复杂越狱攻击的能力分析
团队首先在对抗越狱攻击WildJailbreak和数学编码越狱攻击MathPrompt两个场景分析了o1的安全对齐能力。研究发现:
- o1模型在处理用户请求时,考虑安全指南有助于提升安全性,但推理过程中,o1模型偶尔逻辑混乱,安全机制可被绕过。
- o1模型并非对所有请求启动安全推理模式,有时会错误拒绝良性请求。
系统2对齐方法探索
团队通过提示工程、监督微调、DPO、RL等方法对系统2对齐方法进行探索。实验数据来源于WildJailbreak。该数据集的测试集中包含了对抗有害和对抗良性两种数据类型。
方法1:提示工程
通过在推理过程中使用提示工程来实现系统2对齐,涉及零样本(zero-shot)和少样本(few-shot)的思维链(Chain-of-Thought, CoT)提示方法。实验结果揭示了在测试的模型中,提高模型安全性通常以增加过度拒绝率为代价。在试图平衡这两个指标时,Mistral-7B和Qwen-7B模型在少样本CoT提示方法下表现最佳。
方法2:监督微调(SFT)
基于监督微调的系统2对齐的关键是获取带有思考过程的监督微调数据。实验结果说明通过引入安全相关的慢思考可以提高模型的安全性。特别是Llama3-8B,在两个指标上都表现出平衡且卓越的性能。
方法3:直接偏好优化(DPO)
DPO算法可以直接利用偏好数据而无需依赖奖励模型。实验结果如表4所示。可以看到,DPO在整体性能上略有提升,主要体现在安全性指标上有了显著的提高,但这导致模型对一些良性用户请求表现出过度拒绝的行为。
方法4:基于结果监督的强化学习
在强化学习阶段,使用PPO(近端策略优化)方法对策略模型进行优化。从表5可以看出,经过强化学习(RL)训练后的模型表现最佳。尽管在"not_unsafe"指标上不如DPO,但总体表现更加平衡。
方法5:基于过程监督的强化学习
训练过程奖励模型:过程监督的关键在于自动收集过程奖励数据来训练过程奖励模型。安全性相关问题的决策通常涉及不确定性,不像数学问题通常有明确的解。一个朴素的标注方案是:首先使用基于上文中提到的类型匹配的方法获得的结果奖励,然后基于结果奖励反推过程奖励。
结论和展望
在OpenAI的Deliberative Alignment基础上,系统2对齐可以用于提升传统系统1模型的安全性。通过Prompting、SFT、DPO、RL等多种方式来实现,系统2对齐通过多步推理的慢思考培养模型的批判性评估能力,来增强模型安全性。随着模型能力的提升,对模型对齐和安全性需要新的思考:从系统1式的被动防护转向促进模型系统2式的内在推理和批判性思考。此外,类比从系统1对齐到系统2对齐的过程,传统受限于数据和模型能力基于系统1建模的任务,也有希望通过引入系统2慢思考的方式进行重构。
参考文献
[1] Jaech, Aaron, et al. "OpenAI o1 System Card." arXiv preprint arXiv:2412.16720 (2024).
[2] Guan, Melody Y., et al. "Deliberative alignment: Reasoning enables safer language models." arXiv preprint arXiv:2412.16339 (2024).
[3] Zhang, Yuxiang, et al. "o1-coder: an o1 replication for coding." arXiv preprint arXiv:2412.00154 (2024).
[4] Luo, Liangchen, et al. "Improve Mathematical Reasoning in Language Models by Automated Process Supervision." arXiv preprint arXiv:2406.06592 (2024).
[5] Wang, Peiyi, et al. "Math-shepherd: Verify and reinforce llms step-by-step without human annotations." Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024.
[6] Zhang, Yuxiang, et al. "OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning." arXiv preprint arXiv:2412.16849 (2024).
[7] Vidgen, Bertie, et al. "Introducing v0. 5 of the ai safety benchmark from mlcommons." arXiv preprint arXiv:2404.12241 (2024).