资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

大语言模型中的第一性原理：Scaling laws

创作时间:

作者:

@小白创作中心

大语言模型中的第一性原理：Scaling laws

引用

CSDN

https://blog.csdn.net/qq_32907491/article/details/138445726

大语言模型的尺度定律（Scaling laws）是理解其性能与资源分配之间关系的关键理论。本文深入探讨了尺度定律的数学基础、性质及其在大语言模型训练中的应用，为AI从业者提供了宝贵的参考。

1. 什么是尺度定律

尺度定律是一种描述系统随着规模的变化而发生的规律性变化的数学表达。这些规律通常表现为一些可测量的特征随着系统大小的增加而呈现出一种固定的比例关系。尺度定律在不同学科领域中都有广泛的应用，包括物理学、生物学、经济学等。

有趣的是，OpenAI的研究者在2020年发现，大语言模型也遵循着尺度定律。大语言模型的尺度定律描述的是模型的性能 (L)，模型的参数量大小 (N)，训练模型的数据大小 (D) 以及训练模型使用的计算量 (C) 之间的关系。需要注意的是，这里的尺度定律默认要求大语言模型使用的是Transformer的解码器结构。

模型的性能 (L) 是指模型在测试集上的交叉熵损失：

(1)

(D) 表示token字典表， (T) 表示文本样本被划分为token后的长度。值得注意的是，这里的数学表达进行了一定的简化，仅针对单个文本样本。实际上，测试集由多个文本样本组成。

模型的参数量大小 (N) 是除了静态编码矩阵和位置编码外的参数。

训练数据大小 (D) 指的是在训练过程中使用的token数量。通常情况下， (D) 等于 (BS)，其中 (B) 代表使用梯度下降法时的批量大小（Batch Size）， (S) 表示参数迭代的次数（Step）。

训练模型使用的计算量 (C) 是指训练模型时，使用的浮点运算次数。每训练一个token会涉及一次前向传播，一次反向传播，在大语言模型的训练中，反向传播的浮点运算次数约为前向传播的两倍。需要注意的是，和参数量大小 (N) 类似，这里的浮点运算次数需要排除掉静态编码和位置编码。

在使用Transformer的解码器结构训练模型时，我们可以得到如下的关于 (C, N, D) 之间的近似计算关系：

(2)

关于上述公式的推导过程，可参考论文“Scaling Laws for Neural Language Models”的2.1小节，在此不再详述。公式(2)表明，当 (C)、(N)、(D) 三者中已知其中的两个值时，我们可利用上述公式估算出第三个值。

尺度定律的核心结论可以用下面这句话简单总结：

对于计算量 (C)，模型参数量 (N) 和数据集大小 (D)，当不受其他两个因素制约时，模型性能 (L) 与每个因素都呈现幂律关系。

首先，我们来了解一下什么是幂律关系。幂律关系是指类似于如下的数学表达式：

(3)

这里的 (x) 是变量， (c, \alpha) 是常数。随着 (x) 的增加， (L(x)) 不断减少。有时，我们也会将上式中的 (x) 替换为 (x')，然后两边取对数，将 (\log L(x)) 替换为 (y')，公式(3)会转换为下面的样子：

(y' = \alpha \log c - \alpha x') (4)

公式(4)告诉我们，在幂律关系中，经过适当的变形，可以自然的转换为线性关系。

需要注意的是，大语言模型的尺度定律并非源于理论推导，而是基于经验性的实验分析。那么，尺度定律究竟有何作用呢？至少有以下几个方面：

预测模型效果，便于调整训练策略和超参数。 大语言模型的训练需要大量时间和计算资源。与传统机器学习不同，我们无法直接在大模型和大数据集上进行实验以验证超参数或训练策略。因此，一个明智的做法是在小模型和小数据集上进行训练，然后利用尺度定律将训练效果外推到大模型和大数据集上。通过这种方式，我们可以快速地迭代模型的训练策略和超参数。
合理的分配资源。 训练大语言模型既费时又耗费计算资源。根据尺度定律，我们能够合理地分配模型参数 (N) 和训练数据大小 (D)，以在有限的预算内尽可能获得效果优良的模型。
分析大语言模型的极限。 通过尺度定律，我们可以尝试分析预训练模型的极限在哪里。

接下来，我们将对尺度定律的一些性质进行更详细的解读。

2. 尺度定律的性质

2.1 三个幂律关系

D与L的幂律关系

限制训练数据大小，在比较大的语言模型上训练，使用早停策略选择停止训练的时机（一旦测试集损失停止下降就停止训练）。换句话说，我们只限制了数据集大小 (D)，模型参数量 (N) 和计算量 (C) 没有被限制。模型性能 (L) 和 (D) 有如下的幂律关系：

(5)

(D_c) 和 (\alpha_D) 均为常数。

为什么公式(5)成立呢？虽然这个公式只是通过数据得到的经验性结论，但我们可以通过一个简单的均值估计模型更深刻地理解幂律关系的内涵。

假设有样本 ({x_1, x_2, ..., x_n}) 采样自高斯分布 (N(\mu, \sigma^2))。我们用样本均值 (\bar{x}) 估计高斯分布的期望 (\mu)。样本均值 (\bar{x}) 的定义如下：

(6)

根据相关的统计学知识，下面的等式成立：

(7)

公式(7)的左边类似于 (L(D))，度量的是预测值和真实值之间的差异。不难看到公式(7)其实就是一种幂律关系，不同点在于公式(7)中的 (\alpha_D) 为数字 1。论文"Explaining Neural Scaling Laws"的作者认为，幂律关系中的 (\frac{1}{\alpha_D}) 代表数据集“内在的维度”。

N与L的幂律关系

在不限制数据集的情况下，训练具有不同参数量的大语言模型，直至测试集损失达到收敛。换句话说，我们只限制了模型参数量 (N)，而数据集 (D) 和计算量 (C) 没有受到限制。模型性能 (L) 和 (N) 之间存在如下的幂律关系：

(8)

(N_c) 和 (\alpha_N) 均为常数。需要注意的是，模型参数量 (N) 不包含静态编码的矩阵 (W_{emb})。

C与L的幂律关系

在计算量 (C) 受限的情况下，通过关系式 (C \approx 6NBS)，我们可以遍历不同参数量大小的模型，参数学习迭代 (\frac{C}{6NB}) 次后停止。在这个过程中，我们保持批量大小 (B) 不变。然后，我们可以选择效果最好的一个模型。接着，我们就得到了模型性能 (L) 和 (C) 之间的幂律关系：

(9)

均为常数。

需要注意的是，由于这里的批量大小 (B) 对于所有的模型都是固定不变的。因此上述的经验性结论并不是最优的结论。在论文“Scaling Laws for Neural Language Models”中，作者进一步定义了 (C_{min})，并总结了 (C_{min}) 和模型性能 (L) 的幂律关系，为了避免引入更多其他的概念，我们不介绍和 (C_{min}) 相关的内容。

上面介绍了三个幂律关系，需要特别强调的是，这些幂律关系中的常数会受到不同数据集、tokenizer方法以及token字典表大小的影响，从而得到不同的拟合结果。

2.2 进一步的结论

从数据集大小的幂律关系和模型参数量的幂律关系出发，通过设计不同的实验，我们可以经验性地得到以下几个进一步的结论：

不同类型的数据会显著影响模型的性能。

在大模型的训练中，通常会使用不同类型的组合数据。数据的多样性和适当的组合对最终模型性能的至关重要。

在固定模型总参数量的情况下，不同层数的模型的性能差距比较小。

需要注意的是，这里需要排除掉静态编码的矩阵和位置编码的相关参数。

模型的结构会有一定的影响，更好的模型结构会得到更好的尺度定律。

在探索新的模型结构时，判断新模型结构的有效性一个好的方法是检查其是否符合尺度定律，以及尺度定律是否比基准模型更为优越。上图显示Transformer结构优于多层LSTM结构。

2.3 联合幂律关系

除了单个变量和模型性能 (L) 的幂律关系外，我们还可以建立 (D, N) 和 (L) 的联合幂律关系。目前有两类常用的联合幂律关系假设：

在"Scaling Laws for Neural Language Models"中，作者假设联合幂律关系如下：

(10)

需要注意的是，这里的 (\alpha, \beta) 等常数的值和2.1小节提到的值不一定相同。

在"Training Compute-Optimal Large Language Models"中[3]，作者假设联合幂律关系如下：

(11)

这里的 (\alpha) 和 (\beta) 为常数， (E) 是数据集自身的不可约误差。

通过第一个幂律关系假设，我们可以推导出一个有趣的结论。

当模型的参数量为 (N) 时，我们需要保证数据集大小 (D) 大于 (\frac{N^{\alpha}}{D_c^{\alpha}}) 才能保证模型不会过拟合。

下面我们详细介绍一下这个值是如何得到的。首先作者利用公式(10)，拟合得到 (\alpha, \beta, D_c, N_c) 的值：

(12)

接着定义 (\delta L(N, D))：

(13)

(L(N, \infty)) 表示在无限的数据下，损失的情况。当有无限的数据时，我们认为不会出现过拟合。因此上面公式度量的是在数据集 (D) 大小的情况下，过拟合的程度。该值越大，表示过拟合越严重，该值等于0，表示没有过拟合。然而，由于一些随机性，即使 (D) 已经足够的大，不会导致过拟合， (L(N, D)) 也不可能恰好等于零。因此，我们可以认为当 (\delta L(N, D)) 小于某个上界时， (L(N, D)) 就可以近似认为没有过拟合。

这个上界通过估计 (L(N, \infty)) 的方差得到。即选择不同的随机种子，在足够大的数据集上训练，得到不同的性能 (L)，以此估计出方差。在"Scaling Laws for Neural Language Models"中，作者估计的方差为 0.02。因此，结合公式(10)和(13)：

(14)

带入前面拟合的估计值，最终可得：

(15)

需要注意的是，不同的数据集，tokenizer方法，token字典表大小会得到不同的拟合结果，方差估计结果。因此掌握上面的计算流程是很有必要的。

2.4 最优算力分配

(C) 与 (L) 的幂律关系告诉我们，为了获取“智能”，我们是需要付出一定的代价的。每增加10倍的计算量，模型的性能就会有一定的提升。在计算量的预算有限的情况下，应该如何分配数据集大小 (D) 和模型参数量 (N)，使得模型的性能达到最佳呢？

OpenAI和DeepMind给出了两种不同的结论：

OpenAI认为，每增加10倍的计算量，应该让数据集大小增加为约1.8倍，模型参数量增加为约5.5倍。换句话说，OpenAI认为，模型参数量更加的重要。

DeepMind认为，每增加10倍的计算量，应该让数据集大小增加为约3.16倍，模型参数量也增加为约3.16倍。换句话说，DeepMind认为，数据集大小和模型参数量一样重要。

需要注意的是，这里的数据使用的是对应论文中的数据，在实际的应用中它可能会随着使用的数据集，tokenizer方法，token字典表大小而变化。

在上述描述中，最优算力分配实际上忽略了推断时的算力消耗。在实际应用中，我们可能更应优先考虑的是模型的推理速度，而非仅仅追求训练速度最快。这是因为训练时的算力消耗只发生一次，而后续模型推理可能会进行无数次。因此，Meta开源的Llama大语言模型选择了一种不同的策略，他们采用了参数量较小但在推断时消耗计算资源较少的大语言模型。在随后的训练过程中，他们持续扩展训练集，直至模型性能不再提高。

需要注意的是，这并不代表Meta的策略就是最优的。这是因为按照OpenAI和DeepMind的算力分配策略训练出的大语言模型，在尽量不降低模型效果的前提下，可以利用诸如模型蒸馏、模型压缩、模型量化、模型剪枝等技术手段来缩小模型的体积。

2.5 关于模型的性能

通常我们以测试集上的损失来度量模型性能 (L)。尽管存在2.1小节提到的三个幂律关系，但为了稍微减小一点损失就付出成倍的模型参数和计算量，这真的是一种划算的策略吗？

实际上，研究者发现，尽管模型的损失只是在稳定下降，但模型在某些下游任务的性能却可能突然出现大幅度的提升，正如下图所示（参考自"Emergent Abilities of Large Language Models"）：

这种由量变所带来的质变，称为涌现。因此，虽然损失只由 (l) 降低到了 (0.9l)，但这并不等价于“性能”只提升了百分之十。

3. 尺度定律的未来

尺度定律的极限

"Scaling Laws for Neural Language Models"中提到的幂律关系和联合幂律关系其实会推导出一些矛盾，这些矛盾可能能帮助我们思考尺度定律的极限。

在2.3中我们提到，为了防止过拟合，需要数据集大小 (D) 和模型参数量 (N) 满足如下的关系：

(16)

在2.4中，我们又提到，按照近似 5.5:1.8 的比例分配关系增加模型参数量 (N) 和数据集大小 (D)，可以使得损失 (L) 按照幂律关系不断降低。

然而，很明显，如果不断的按照 5.5:1.8 的比例增加模型参数量 (N) 和数据集大小 (D)，那么一定存在一个点 (N^, D^)，使得 (D^* < \frac{N^{* \alpha}}{D_c^{\alpha}})。换句话说，按照2.4的结论，在达到 (N^, D^) 后，继续增加模型参数量和数据集大小，损失 (L) 会继续降低，但按照2.3的结论，模型会出现过拟合，(L) 并不会降低，反而会升高。

为什么会出现这种矛盾呢？"Scaling Laws for Neural Language Models"的作者认为有两种可能：