RouteLLM：学习使用偏好数据实现路由LLM

创作时间:

作者:

@小白创作中心

RouteLLM：学习使用偏好数据实现路由LLM

引用

CSDN

https://blog.csdn.net/yorkhunter/article/details/140320728

在大语言模型（LLM）的应用中，如何在性能和成本之间找到平衡点是一个重要的问题。近期，来自UC Berkeley的研究团队提出了一种名为RouteLLM的解决方案，通过学习偏好数据来实现LLM的路由选择。本文将详细介绍RouteLLM的技术细节和实验结果。

背景与动机

在LLM应用中，将所有用户查询路由到最大、功能最强的模型可以确保高质量的结果，但成本过高。相反，将查询路由到较小的模型可以节省成本——最多可节省 50 倍以上（例如，Llama-3-70b 与 GPT-4 相比，或 Claude-3 Haiku 与 Opus 相比）——但可能会导致响应质量较低，因为较小的模型可能无法有效处理复杂查询。

LLM 路由是解决此问题的一个有希望的解决方案，即每个用户查询首先由路由器模型处理，然后再决定将查询路由到哪个 LLM。这可以将较容易的查询路由到较小的模型，将较困难的查询路由到较大的模型，从而优化模型响应的质量并最大限度地降低成本。但是，最佳 LLM 路由（定义为在给定成本目标的情况下实现最高质量或在给定质量目标的情况下最小化成本）是一个具有挑战性的问题。强大的路由器模型需要推断传入查询的意图、复杂性和领域，并了解候选模型将查询路由到最合适模型的能力。此外，路由器模型需要经济、快速并适应不断发展的模型格局，其中不断引入具有改进功能的新模型。

技术细节

模型架构

考虑一组 N 个不同的 LLM 模型 M = {M1,…,MN}。每个模型 Mi : Q → A 都可以抽象为将查询映射到答案的函数。路由函数 R: Q × MN → {1,…,N} 是一个 N 路分类器，它接受查询 q ∈ Q 并选择一个模型来回答 q，答案为 a = MR(q)。路由的挑战在于在提高响应质量和降低成本之间实现最佳平衡。

假设可以访问偏好数据：Dpref = {(q,li,j) | q ∈ Q,i,j ∈ N, li,j ∈ L}，其中 q 是一个查询，li,j 是一个标签，表示比较 Mi,Mj 在 q 上的质量的比较结果，其取值在 L = {winMi, tie, winMj} 中。

区分奖励建模 [22] 和路由的工作非常重要。奖励建模评估 LLM 生成后的响应质量，而路由要求路由器在看到响应之前选择适当的模型。这需要深入了解问题的复杂性以及可用 LLM 的优缺点。

这项工作专注于两类模型之间的路由：（1）强模型（Mstrong），由能够产生高质量响应但成本高昂的模型组成。这类模型主要由最先进的闭源模型组成，例如 GPT-4。（2）弱模型（Mweak），由质量相对较低、成本较低的模型组成，例如 Mixtral-8x7B。这种二元路由问题在实践中相当常见，尤其是在 LLM 应用程序的开发人员努力平衡质量和成本的情况下。此外，解决这个问题为解决更一般的 N-路路由问题奠定了基础。

提出一个原则框架，用于从偏好数据中学习 Mweak 和 Mstrong 之间的二元路由函数 Rαbin : Q → {0, 1}。为了实现这一点，用两个组件来定义 Rαbin：

获胜预测模型，预测强模型 Mstrong 的获胜概率，即 Pθ (win Mstrong |q)。在二元分类设置中，这个概率捕获了两个模型类的获胜/失败概率。可以学习这个模型的参数 θ，并在偏好数据上具有最大似然性：

通过学习偏好数据的获胜概率，可以捕获两个模型类在各种查询上的优势和劣势。

成本阈值 α ∈ [0, 1]，将获胜概率转换为 Mstrong 和 Mweak 之间的路由决策。给定查询 q，路由决策公式为：

阈值 α 控制质量/成本权衡：更高的阈值施加更严格的成本约束，通过潜在地损害质量来降低费用。

最后，将路由器的响应表示为 MRαbin(q)，它表示由弱模型或强模型产生的响应，具体取决于路由器的决策。

评估指标

成本效率
质量

这样总成本增益为恢复的性能差异（PGR）

定义恢复的平均性能差异（APGR）为

近似计算为：

定义调用性能门限（CPT）。给定所需的路由器性能（以 x% 的 PGR 衡量），CPT(x%) 指的是获得所需 PGR 所需的对强模型的最小调用百分比。

如图所示GPT-4 和 Mixtral-8x7B 之间的路由性能/成本权衡。（左）演示几款在 OOD eval GSM8K 上表现优于随机基线的路由器。（中）在 MT Bench 上通过数据增强（用 (A) 表示）展示路由器性能的提升。（右）展示考虑的主要指标：调用性能阈值（CPT，用绿色表示）和恢复的平均性能增益（APGR，用蓝色阴影区域表示）。可以看见，绿色虚线表示 CPT(50%)，即实现所需 50% PGR 性能所需的对 GPT-4 的调用百分比；这里，CPT (50%) ≈ 37%。

数据获取与增强

如何获取偏好数据来训练路由功能？用在线 Chatbot Arena 平台 [10] 中的 80k 场战斗。在这个平台上，用户与聊天机器人界面交互并提交他们选择的提示。提交后，他们会收到两个匿名模型的回复，并投票选出获胜模型或平局。结果数据集表示为 Darena = {(q, ai, aj , li,j ) | q ∈ Q, ai, aj ∈ A, li,j ∈ L}，由用户查询、两个模型 Mi 和 Mj 的答案以及基于人类判断的成对比较标签组成。

使用原始 Chatbot Arena 数据的一个主要问题是标签稀疏性。例如，任何两个模型之间的比较标签百分比平均不到 0.1%。因此，按如下方式推导出用于训练路由器的偏好数据：首先，将 Darena 中的模型聚类为 10 个不同层级来降低标签稀疏性，使用每个模型在 Chatbot Arena 排行榜5 上的 Elo 分数，并通过动态规划最小化每个层级内的变化。选择第一和第二层的模型来表示强模型 Mstrong，选择第三层的模型来表示弱模型 Mweak。虽然主要在这些层级的战斗上进行训练，但也会利用涉及其他模型层的战斗来规范学习方法。至关重要的是，省略 Darena 中的实际模型响应，仅保留模型标识，即 e ∼ Dpref 是 e = (q, Mi, Mj , li,j )。比较标签 li,j 仍然可以洞察 LLM Mi 和 Mj 在查询 q 各种类型和复杂度级别上的相对能力。

即使将模型分为不同层级，人类偏好信号在不同的模型类别中仍然相当稀疏。这可能会阻碍泛化，尤其是对于参数繁重的模型。因此，分析以下两种数据增强方法：

黄金标签数据集：用 Dgold ={(q,a,lg)| q ∈ Q, a ∈ A, lg ∈ R} 形式的数据集来增强训练数据，其中黄金标签 lg 是针对模型答案 a（例如多项选择题答案）自动计算的。这种数据集的一个例子是 MMLU 基准 [15]。用包含大约 1500 个问题的 MMLU 验证分割，并通过简单比较 Mi 和 Mj 的响应从 lg 中得出比较标签 li,j，从而创建偏好数据集 Dgold 进行增强。
LLM 评判标注数据集：使用 LLM 评判器 [30] 获取开放式聊天域的偏好标签，因为它已证明与人类判断具有高度相关性 [14, 17]。给定一组用户查询，首先从 Mstrong 中的强模型和 Mweak 中的弱模型生成响应，然后使用 GPT-4 作为评判器生成成对比较标签。这种方法的主要挑战是从 GPT-4 大量收集响应和成对比较的成本很高。幸运的是，Nectar 数据集 [31] 提供了各种各样的查询和相应的模型响应。通过选择具有 GPT-4 响应的查询（作为 Mstrong 的代表），在其上从 Mixtral-8x7B（作为 Mweak 的代表）生成响应，从而显着降低了成本。最后，用 GPT-4 评判器获得成对比较 6 个标签。总体而言，收集了一个大约 120K 个样本的偏好数据集 Djudge，总成本约为 700 美元。