资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

量化遇瓶颈：Scaling Law无法无限扩展？科学家揭示低精度训练的极限

创作时间:

作者:

@小白创作中心

量化遇瓶颈：Scaling Law无法无限扩展？科学家揭示低精度训练的极限

引用

腾讯

https://new.qq.com/rain/a/20241113A097PG00?media_id=&openApp=false&suid=&web_channel=wap

近年来，随着大模型参数规模的不断扩大，低精度训练作为一种有效降低成本的策略被广泛应用。然而，来自哈佛大学、斯坦福大学与MIT等机构的研究团队最新研究发现，随着模型规模的不断扩大，低精度的量化或将不再有效。

研究背景

大模型的发展史某种程度上也是模型规模不断扩张的历史。更大规模的模型参数带来了性能的不断提升，但与此同时，计算成本也急剧增加。

为了降低计算成本，低精度训练与推理成为了一种行之有效的策略，它能通过减少计算量和内存占用来提升训练效率和推理速度。例如Llama-3 405B，就采用了BF16（即16位浮点，而非传统的32位）精度进行训练。

随着硬件支持的逐渐发展，专门为低精度计算设计的计算单元和优化的内存架构不断涌现，使得FP8、FP4等更低精度的训练方式逐渐成为可能，能在减少计算和存储成本的同时，保持模型的数值稳定性和性能。于是，目前有关缩放定律的研究似乎并未充分考虑精度这一因素的影响。

研究发现

来自哈佛大学、斯坦福大学与MIT等机构的合作团队提出：随着模型规模的不断扩大，低精度的量化或将不再有效。

相关论文以《精度感知的缩放定律》（Scaling Laws for Precision）为题，发表在预印本网站arXiv上。

研究团队对465个语言模型进行了实验，这些模型的规模从3000万到17亿个参数不等，并使用了包含260亿tokens的数据集进行训练。实验中涵盖了不同精度的组合，从3位到16位，模拟了多种低精度环境，以研究其对模型性能和计算效率的影响。

研究分析了后训练量化（Post-Train Quantization, PTQ）的影响。后训练量化是指在模型完成训练后，将其高精度的权重量化为低精度，以减少推理时的存储需求。这种方法通常被用于深度学习模型的部署阶段，以节省硬件资源。

然而，团队发现，后训练量化带来的模型性能损失会随着训练数据量的增加而增加，特别是在低精度下，这种损失可能非常显著。

为了进一步理解低精度训练的影响，研究者对不同部分的低精度训练进行了单独实验，包括仅量化权重的“量化感知训练”（Quantization-Aware Training）和对权重、激活及KV缓存同时量化的“低精度训练”（Low-Precision Training）。

通过这些实验，研究者分别观察了各组件在不同精度设置下对模型损失的影响，并总结了低精度训练对模型整体性能的作用机制。

实验结果显示，在较低精度下，增加权重的位精度所带来的收益很大，但在较高精度下会趋于饱和。相比之下，激活和KV缓存在更低精度下的量化则可能显著增加模型的损失。

通过这些实验，研究者意识到各个组件的低精度效果是相对独立的，但同时存在一个共同的现象：模型的总有效参数数会随着各组件精度的降低而显著下降，进而导致模型损失的上升。

虽然在权重精度较低时，增加模型参数可以使模型达到与高精度小模型相似的性能。但对于那些极低精度（例如INT3或FP4）的训练，即使模型的总参数数量增加，其学习能力和表现也可能大幅度下降，因为这些低精度参数无法完全捕捉复杂的数据特征。

所以，随着数据量的增加，使用更高的训练精度可以更好地利用这些数据，从而提高模型的性能。

研究意义

为了将训练与推理阶段的精度、参数和数据之间的相互作用统一起来，研究团队提出了一种统一的精度缩放定律。该定律综合了训练中的损失、后训练量化中的损失，以及它们在不同精度设置下的表现。

通过将训练损失和推理损失结合在一起，研究由此提供了一个统一的框架来预测低精度训练和量化后的性能。这种精确的建模使得研究者能够预测在不同训练和推理精度组合下的性能变化，从而为未来模型的精度选择提供了理论依据。

团队指出，尽管16位精度（BF16）已成为训练大规模模型的常规选择，但实际上7到8位精度可能在计算成本与性能之间达到更优的平衡点，并进一步指出在极低精度（如4位以下）下，模型的有效参数数将显著减少，导致需要成倍增加参数量以维持模型性能，这在实际中或许行不通。

这项研究通过一系列精度实验与理论推导，揭示了低精度训练对模型性能的深远影响。通过精度感知的扩展规律，研究者不仅为低精度模型训练提供了科学依据，也为未来模型的精度优化指明了方向。

有学者表示，“这是长期以来最重要的一篇论文。它以强有力的证据表明，我们正在达到量化的极限”，它或许意味着，我们的思维模式“将很快从规模化转变为‘我们能用现有资源做什么’”。

热门推荐

椎间盘突出症的类型、症状及体格检查

当骑手过剩，送外卖还香吗？

如何让AI生成令人满意的图像？（prompt指南）

公寓水表选购及注意事项，15年智能水表专家经验总结

交强险和车船税收费标准是什么？车船税和交强险有啥区别

湿疹与热疹有什么区别

每天做梦,梦的乱七八糟好累,怎么办

一亩地有多大？一亩等于多少平方米，带你了解土地面积单位

心窝处间歇性抖动是什么原因

日本旅游攻略：从注意事项到预算全解析

横膈痉挛性收缩是怎么回事

2025失业金在哪里怎么申请领取？诸暨领取失业保险金途径有哪些？

“深入探讨英语中‘may’的多重含义与用法”

短视频脚本编写指南

如何有效利用搜索引擎推荐关键词提升流量？

5分钟巨震40%，光线传媒已炒崩？游资机构疯狂出货

合格的导演与不合格的导演区别在哪里？

你是完整而广阔的存在 |《觉醒：在日常生活中练习正念》

“新”科技讲好“老”故事文化遗产焕发“年轻”姿态

巴塞罗那的方正韵律：强迫症美学的城市规划诠释

沙特阿拉伯，未来的矿业大国？

为何马云露个面也能成为大新闻？

如何在职场社交中拓展人脉资源

葡萄牙如何移民美国？解析移民美国的较佳途径

域外证据在我国民事诉讼实务中的处理原则

管城区热门初中汇总！2025年小升初家长必看！

智慧养鸡管理系统的全面解析与应用：实现高效养殖的新方法

玉雕猫咪的寓意与作品欣赏

美国本科数学要求详解：从课程设置到职业发展

如何在前端设计中保持一致性