资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐

创作时间:

作者:

@小白创作中心

用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐

引用

来源

https://cloud.tencent.com/developer/article/2492898

随着人工智能技术的快速发展，模型的安全性问题日益凸显。北京交通大学ADaM团队在这一领域进行了深入研究，提出了"系统2对齐"的概念，并通过多种技术手段来提升模型的安全性。本文将详细介绍这一研究的背景、方法和实验结果。

研究背景

OpenAI在"双十二"发布会的最后一天公开了o系列背后的对齐方法——deliberative alignment，展示了通过系统2的慢思考能力提升模型安全性的可行性。在此之前，ADaM团队提出了类似的"系统2对齐"概念，探索了通过提示工程、监督微调、DPO、RL（结果奖励）和RL（过程奖励）实现系统2对齐的技术路径。研究发现：系统2对齐可以同时有效提升传统的系统1模型的安全性。

系统2对齐的概念

系统2对齐是通过引导或监督的方式使模型对齐。这种方式鼓励有意的、分析性的推理，以确保模型能够全面评估输入内容，考虑潜在的风险和错误，并解决其中的偏差或缺陷。用培养孩子来类比的话，系统1对齐是直接命令孩子遵守规则（Command），系统2对齐则通过引导来培养孩子自主批思考和做出合理决策的能力（Cultivate）。

o1应对复杂越狱攻击的能力分析

团队首先在对抗越狱攻击WildJailbreak和数学编码越狱攻击MathPrompt两个场景分析了o1的安全对齐能力。研究发现：

o1模型在处理用户请求时，考虑安全指南有助于提升安全性，但推理过程中，o1模型偶尔逻辑混乱，安全机制可被绕过。
o1模型并非对所有请求启动安全推理模式，有时会错误拒绝良性请求。

系统2对齐方法探索

团队通过提示工程、监督微调、DPO、RL等方法对系统2对齐方法进行探索。实验数据来源于WildJailbreak。该数据集的测试集中包含了对抗有害和对抗良性两种数据类型。

方法1：提示工程

通过在推理过程中使用提示工程来实现系统2对齐，涉及零样本（zero-shot）和少样本（few-shot）的思维链（Chain-of-Thought, CoT）提示方法。实验结果揭示了在测试的模型中，提高模型安全性通常以增加过度拒绝率为代价。在试图平衡这两个指标时，Mistral-7B和Qwen-7B模型在少样本CoT提示方法下表现最佳。

方法2：监督微调（SFT）

基于监督微调的系统2对齐的关键是获取带有思考过程的监督微调数据。实验结果说明通过引入安全相关的慢思考可以提高模型的安全性。特别是Llama3-8B，在两个指标上都表现出平衡且卓越的性能。

方法3：直接偏好优化（DPO）

DPO算法可以直接利用偏好数据而无需依赖奖励模型。实验结果如表4所示。可以看到，DPO在整体性能上略有提升，主要体现在安全性指标上有了显著的提高，但这导致模型对一些良性用户请求表现出过度拒绝的行为。

方法4：基于结果监督的强化学习

在强化学习阶段，使用PPO（近端策略优化）方法对策略模型进行优化。从表5可以看出，经过强化学习（RL）训练后的模型表现最佳。尽管在"not_unsafe"指标上不如DPO，但总体表现更加平衡。

方法5：基于过程监督的强化学习

训练过程奖励模型：过程监督的关键在于自动收集过程奖励数据来训练过程奖励模型。安全性相关问题的决策通常涉及不确定性，不像数学问题通常有明确的解。一个朴素的标注方案是：首先使用基于上文中提到的类型匹配的方法获得的结果奖励，然后基于结果奖励反推过程奖励。

结论和展望

在OpenAI的Deliberative Alignment基础上，系统2对齐可以用于提升传统系统1模型的安全性。通过Prompting、SFT、DPO、RL等多种方式来实现，系统2对齐通过多步推理的慢思考培养模型的批判性评估能力，来增强模型安全性。随着模型能力的提升，对模型对齐和安全性需要新的思考：从系统1式的被动防护转向促进模型系统2式的内在推理和批判性思考。此外，类比从系统1对齐到系统2对齐的过程，传统受限于数据和模型能力基于系统1建模的任务，也有希望通过引入系统2慢思考的方式进行重构。

参考文献

[1] Jaech, Aaron, et al. "OpenAI o1 System Card." arXiv preprint arXiv:2412.16720 (2024).

[2] Guan, Melody Y., et al. "Deliberative alignment: Reasoning enables safer language models." arXiv preprint arXiv:2412.16339 (2024).

[3] Zhang, Yuxiang, et al. "o1-coder: an o1 replication for coding." arXiv preprint arXiv:2412.00154 (2024).

[4] Luo, Liangchen, et al. "Improve Mathematical Reasoning in Language Models by Automated Process Supervision." arXiv preprint arXiv:2406.06592 (2024).

[5] Wang, Peiyi, et al. "Math-shepherd: Verify and reinforce llms step-by-step without human annotations." Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024.

[6] Zhang, Yuxiang, et al. "OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning." arXiv preprint arXiv:2412.16849 (2024).

[7] Vidgen, Bertie, et al. "Introducing v0. 5 of the ai safety benchmark from mlcommons." arXiv preprint arXiv:2404.12241 (2024).

热门推荐

山楂树什么时候开花结果？