DeepSeek-V3中的RMSNorm均方根归一化技术详解
创作时间:
作者:
@小白创作中心
DeepSeek-V3中的RMSNorm均方根归一化技术详解
引用
CSDN
1.
https://m.blog.csdn.net/xuebodx0923/article/details/145488212
1. 概述
DeepSeek-V3研究并设置了一个多token预测(MTP)目标,该目标将预测范围扩展到每个位置的多个未来token。Multi-Token Prediction(MTP)可以显著加快模型的解码速度。在MTP中用到了RMSNorm,RMSNorm(Root Mean Square Layer Normalization,均方根归一化)是一种用于深度学习模型的归一化技术,特别适用于Transformer等架构。它作为LayerNorm(层归一化)的替代方案,旨在简化归一化过程,降低计算复杂度,同时保持或提升模型的性能。
2. RMSNorm的优势
在深度学习中,归一化技术被广泛用于稳定和加速模型训练。LayerNorm在Transformer模型中得到了广泛应用,它通过对每个样本的特征维度进行归一化,减少了内部协变量偏移。然而,LayerNorm需要计算输入特征的均值和方差,这增加了计算复杂度和开销。RMSNorm的提出是为了消除对均值计算的依赖,仅通过输入特征的均方根(RMS)进行归一化,从而简化计算,提高效率。
3. 数学公式
给定输入向量X,其中d是特征维度;
3.1 layerNorm的计算过程
计算均值和方差:
归一化操作:
3.2 RMSNorm的计算过程
计算均方根(RMS):
归一化输入向量:
应用缩放和偏移参数:
不计算均值,仅计算均方根(RMS)。
归一化操作不减去均值,直接除以均方根。
4. 总结
计算复杂度:RMSNorm减少了均值的计算,降低了整体计算量。
数值稳定性:RMSNorm避免了方差接近零的情况,提升了数值稳定性。
表现性能:在某些任务中,RMSNorm可以达到或超过LayerNorm的性能。
热门推荐
从LDO到DC-DC:电压差对性能的影响
高压上、下电的电气安全影响分析
地沟油问题全解析:从监管治理到资源化利用
物业合同要素及有效性的探讨
车辆自检的步骤是什么?如何确保车辆安全行驶?
如何通过政策解读找到适合企业的扶持措施?
数智治理走进基层,小区停车难题线上解决
四川最出名的4道经典川菜,香辣开胃,色香味俱全,越吃越过瘾!
DeepSeek推荐:五大维度全面提升阅读效率
不缺钙就没有骨质疏松?年轻人也“有份”
常用的保肝药有哪些?
阿拉比卡咖啡豆的作用与功效是什么?与罗布斯塔的区别
高粘稠血症症状全解析:从血沉加快到视力模糊
红花石蒜的养殖措施
红细胞增多症:定义、分类、症状及治疗方法详解
和田玉盘出包浆的时间:影响因素、技巧与观察指南
什么是模型驱动架构MDA(Model Driven Architecture)?
八字排盘的基本概念详解 八字排盘怎么使用
为何用"温其如玉"形容君子?从《诗经》到儒家经典的解读
传染病预防:戴口罩的重要性
如何使用住房公积金租房以减轻经济压力?这种使用方法在不同地区有何不同?
上海公积金装修贷款:轻松装修你的家
老年人眼干涩、视物模糊?补充3种营养,眼睛更明亮
Mac怎么设置合上盖子就休眠
功能安全之故障 (fault),错误 (error),失效 (failure)
提升电池激光焊接设备生产效率的四大策略
推荐糖尿病人必吃的5种食物,调节血糖,还有营养!
随机性、熵与随机数生成器:解析伪随机数生成器和真随机数生成器
实现短期目标的五个有效策略与技巧
最美不过落日!不读这20句诗词,你就不知道落日有多美