问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

量化遇瓶颈:Scaling Law无法无限扩展?科学家揭示低精度训练的极限

创作时间:
作者:
@小白创作中心

量化遇瓶颈:Scaling Law无法无限扩展?科学家揭示低精度训练的极限

引用
腾讯
1.
https://new.qq.com/rain/a/20241113A097PG00?media_id=&openApp=false&suid=&web_channel=wap

近年来,随着大模型参数规模的不断扩大,低精度训练作为一种有效降低成本的策略被广泛应用。然而,来自哈佛大学、斯坦福大学与MIT等机构的研究团队最新研究发现,随着模型规模的不断扩大,低精度的量化或将不再有效。

研究背景

大模型的发展史某种程度上也是模型规模不断扩张的历史。更大规模的模型参数带来了性能的不断提升,但与此同时,计算成本也急剧增加。

为了降低计算成本,低精度训练与推理成为了一种行之有效的策略,它能通过减少计算量和内存占用来提升训练效率和推理速度。例如Llama-3 405B,就采用了BF16(即16位浮点,而非传统的32位)精度进行训练。

随着硬件支持的逐渐发展,专门为低精度计算设计的计算单元和优化的内存架构不断涌现,使得FP8、FP4等更低精度的训练方式逐渐成为可能,能在减少计算和存储成本的同时,保持模型的数值稳定性和性能。于是,目前有关缩放定律的研究似乎并未充分考虑精度这一因素的影响。

研究发现

来自哈佛大学、斯坦福大学与MIT等机构的合作团队提出:随着模型规模的不断扩大,低精度的量化或将不再有效。

相关论文以《精度感知的缩放定律》(Scaling Laws for Precision)为题,发表在预印本网站arXiv上。

研究团队对465个语言模型进行了实验,这些模型的规模从3000万到17亿个参数不等,并使用了包含260亿tokens的数据集进行训练。实验中涵盖了不同精度的组合,从3位到16位,模拟了多种低精度环境,以研究其对模型性能和计算效率的影响。

研究分析了后训练量化(Post-Train Quantization, PTQ)的影响。后训练量化是指在模型完成训练后,将其高精度的权重量化为低精度,以减少推理时的存储需求。这种方法通常被用于深度学习模型的部署阶段,以节省硬件资源。

然而,团队发现,后训练量化带来的模型性能损失会随着训练数据量的增加而增加,特别是在低精度下,这种损失可能非常显著。

为了进一步理解低精度训练的影响,研究者对不同部分的低精度训练进行了单独实验,包括仅量化权重的“量化感知训练”(Quantization-Aware Training)和对权重、激活及KV缓存同时量化的“低精度训练”(Low-Precision Training)。

通过这些实验,研究者分别观察了各组件在不同精度设置下对模型损失的影响,并总结了低精度训练对模型整体性能的作用机制。

实验结果显示,在较低精度下,增加权重的位精度所带来的收益很大,但在较高精度下会趋于饱和。相比之下,激活和KV缓存在更低精度下的量化则可能显著增加模型的损失。

通过这些实验,研究者意识到各个组件的低精度效果是相对独立的,但同时存在一个共同的现象:模型的总有效参数数会随着各组件精度的降低而显著下降,进而导致模型损失的上升。

虽然在权重精度较低时,增加模型参数可以使模型达到与高精度小模型相似的性能。但对于那些极低精度(例如INT3或FP4)的训练,即使模型的总参数数量增加,其学习能力和表现也可能大幅度下降,因为这些低精度参数无法完全捕捉复杂的数据特征。

所以,随着数据量的增加,使用更高的训练精度可以更好地利用这些数据,从而提高模型的性能。

研究意义

为了将训练与推理阶段的精度、参数和数据之间的相互作用统一起来,研究团队提出了一种统一的精度缩放定律。该定律综合了训练中的损失、后训练量化中的损失,以及它们在不同精度设置下的表现。

通过将训练损失和推理损失结合在一起,研究由此提供了一个统一的框架来预测低精度训练和量化后的性能。这种精确的建模使得研究者能够预测在不同训练和推理精度组合下的性能变化,从而为未来模型的精度选择提供了理论依据。

团队指出,尽管16位精度(BF16)已成为训练大规模模型的常规选择,但实际上7到8位精度可能在计算成本与性能之间达到更优的平衡点,并进一步指出在极低精度(如4位以下)下,模型的有效参数数将显著减少,导致需要成倍增加参数量以维持模型性能,这在实际中或许行不通。

这项研究通过一系列精度实验与理论推导,揭示了低精度训练对模型性能的深远影响。通过精度感知的扩展规律,研究者不仅为低精度模型训练提供了科学依据,也为未来模型的精度优化指明了方向。

有学者表示,“这是长期以来最重要的一篇论文。它以强有力的证据表明,我们正在达到量化的极限”,它或许意味着,我们的思维模式“将很快从规模化转变为‘我们能用现有资源做什么’”。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号