一箭双雕":调整可控模型与提高性能之间的权衡。
一箭双雕":调整可控模型与提高性能之间的权衡。
本文介绍了一种新型算法——可控优先级优化(CPO),用于解决大规模语言模型(LLMs)在调整过程中遇到的多目标优化问题。通过设定明确的优先级条件,CPO能够平衡多个目标,使模型更好地符合人类的偏好和价值观。
概述
人工智能(AI)调整的核心目标是使模型的反应与人类的偏好和价值观相匹配。然而,人类的偏好是复杂的,改善一个目标可能会以牺牲另一个目标为代价。这种现象被称为"调整税"。目前所使用的调整方法往往只能在一个方向上发挥作用,对于某些目标来说不够灵活。因此,本文提出了一种优化优先级的方法。它为不同的目标设定优先级,并根据这些优先级调整模型。实验表明,这种方法能产生与"有用性"、"诚实性"和"无害性"(3H)等偏好相匹配的响应。此外,与传统方法相比,使用不同的数据和目标会产生更好的结果,减少调整税的影响,并改善多个目标的协调。
介绍
大规模语言模型(LLMs)作为人类的人工智能助手非常有用,重要的是它们的运行要符合人类的偏好和价值观。以往的研究提出了一个"3H"协调目标,即有用、诚实和无害的 LLM。然而,这一目标非常复杂,有时还会相互冲突。例如,一个有用的 LLM 不应该拒绝回答危险的问题,这是一个两难的问题。以前的研究已经采取了一些方法来解决这个问题,但尚未完全解决。
本研究提出了一种新型算法——可控优先级优化(CPO),以同时实现多个目标。该算法根据明确的优先级条件控制 LLM 的行为,并平衡多个目标。
图1:(a)在多目标优化中,试图优化多个目标往往会导致目标之间的冲突。(b)在可控生成中,假设 H1 与有用性有关,H2 与诚实有关:如果只提供 H1,优化方向就会被限制在平面上。另一方面,如果同时提供 H1 和 H2,优化方向就会被限制在一条直线上。
相关研究
LLM 拥有大量知识,但并不了解人类的意图,因此在实际系统中实施之前需要对其进行调整。以往的研究侧重于提高有用性和无害性,但并不关注诚实性的调整。最近的研究通过有监督的微调来训练 LLM,以通过拒绝或表达不确定性来解决跨越知识边界的问题。调整还涉及一个被称为调整税的问题。这指的是 LLM 在某些方面妥协的可能性。为解决这一问题,曾考虑过利用越狱响应进行安全协调,但过度的安全训练可能会使模型反应迟钝。因此,减少多目标优化之间的权衡非常重要。
关于推理过程中可控对齐的研究也在进行中。人们考虑了基于特定目标的定制生成,并提出了各种方法来对齐不同的目标。本文的方法侧重于减少多个对齐目标之间的不一致性。
建议方法
所提出的方法,即可控首选优化(CPO)算法,允许在训练反映人类价值观和偏好的人工智能模型时同时考虑和调整多个目标。
图2:可控优先级优化的总体框架。
首先,CPO 算法通过偏好标记确定模型行为的调整方向。CPO 算法的主要思想之一是将多目标优化问题转化为条件多目标优化问题,这样就可以同时优化多个目标和条件。具体来说,定义了代表人类价值和偏好的目标函数,并对模型进行训练,使其同时达到最大化。这可确保模型经过调整后与多种价值相匹配。CPO 算法还包括两个阶段:可控优先级监控微调和可控直接优先级优化。可控优先级监控微调可根据优先级条件对模型进行微调,而可控直接优先级优化则可控制直接优先级并同时调整多个目标。
这些方法结合在一起,使模型能够对人类的价值观和偏好做出适当的反应,并适应复杂的情况;CPO 算法是提高人工智能系统性能和灵活性的一种很有前途的方法。
试验
提出了一种可控优先优化(CPO)算法,并对其性能进行了评估。
评估 "3H "指标(有用性、完整性和无害性)
在数据集和基础模型设置中,使用 UltraFeedback 和 UltraSafety 等数据集训练安全可控模型;在 CPSFT 阶段,训练模型以增强多转弯互动。
图3:实验评估了SFT(单因子技术)、DPO(双过程结果)、CPSFT(条件单因子技术)和 CPO(条件过程结果)的可控性。结果表明,CPSFT 和 CPO 的可控性优于其他技术。
对国家方案干事进行多用途协调评估
同样的排列数据被用于评估 CPO 的效果,并与 Zephyr-7Bbeta、Mistral-7B-Instructv0.2、WizardLM-7B 和 LLaMA2-7B-Chat 等基线数据进行比较。
图4:结果表明,CPO 的性能优于 DPO,尤其是在保持有用性和完整性的同时获得了更高的安全性分数。该实验表明,CPO 算法能有效控制有用性、完整性和无害性,并能同时实现多个目标。
帕累托最优估值
将 CPSFT 和 CPO 与两个基线进行比较,以评估其在有用性、完整性和无害性方面的表现。专家们使用训练有素的回答并进行权衡,以探索每个方面的最高得分。结果表明,CPO 的性能优于其他方法。有用性(H1)、完整性(H2)和无害性(H3)的性能权衡如下。
(a-c):根据 3H 最高评分子集训练的专门模型
(d): 根据评分最高的子集混合训练的 SFT 模型。
(e-f):在数据集上训练的 CPSFT 和 CPO 模型。
敏感性分析(如在模拟中)
研究了两个关键超参数对有用性和完整性目标的影响。它揭示了目标重要性之间的权衡以及可控性与性能最大化之间的关系。
图5:研究了不同的 λ 和 ω 值对模型可控性和性能的影响。 随着 λ 值的增大,可控性增强,效果先增加后下降。 当 ω = 0.4 时,实用性和完整性之间达到了令人满意的平衡。
案例研究
展示了 CPO 的可控性。演示了该模型在不同场景下的能力,表明它可以生成符合用户价值观的响应。这些实验结果表明,CPO 算法在有用性、诚实性和无害性方面具有有效的可控性,可以提高模型在不同场景下的性能。
结论
本文介绍了一种新方法,用于解决大规模语言模型(LLM)调整过程中的性能权衡问题。这种方法被称为可控偏好优化(CPO),它结合了监督微调和偏好学习;CPO 的评估结果表明,它在实用性、诚实性和无害性方面都表现出了出色的灵活性和性能。
可控偏好优化(CPO)是 LLM 协调的一个重要进步。CPO 未来有望得到进一步改进和扩展。例如,可以通过引入更复杂的协调目标和新的控制方法来进一步提高 CPO 的性能。此外,还需要开展进一步的研究,以验证 CPO 的实用性和有效性,从而进一步促进实际应用和工业部署。