问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek-V3中的RMSNorm均方根归一化技术详解

创作时间:
作者:
@小白创作中心

DeepSeek-V3中的RMSNorm均方根归一化技术详解

引用
CSDN
1.
https://m.blog.csdn.net/xuebodx0923/article/details/145488212

1. 概述

DeepSeek-V3研究并设置了一个多token预测(MTP)目标,该目标将预测范围扩展到每个位置的多个未来token。Multi-Token Prediction(MTP)可以显著加快模型的解码速度。在MTP中用到了RMSNorm,RMSNorm(Root Mean Square Layer Normalization,均方根归一化)是一种用于深度学习模型的归一化技术,特别适用于Transformer等架构。它作为LayerNorm(层归一化)的替代方案,旨在简化归一化过程,降低计算复杂度,同时保持或提升模型的性能。

2. RMSNorm的优势

在深度学习中,归一化技术被广泛用于稳定和加速模型训练。LayerNorm在Transformer模型中得到了广泛应用,它通过对每个样本的特征维度进行归一化,减少了内部协变量偏移。然而,LayerNorm需要计算输入特征的均值和方差,这增加了计算复杂度和开销。RMSNorm的提出是为了消除对均值计算的依赖,仅通过输入特征的均方根(RMS)进行归一化,从而简化计算,提高效率。

3. 数学公式

给定输入向量X,其中d是特征维度;

3.1 layerNorm的计算过程

计算均值和方差:

归一化操作:

3.2 RMSNorm的计算过程

计算均方根(RMS):

归一化输入向量:

应用缩放和偏移参数:

不计算均值,仅计算均方根(RMS)。
归一化操作不减去均值,直接除以均方根。

4. 总结

计算复杂度:RMSNorm减少了均值的计算,降低了整体计算量。

数值稳定性:RMSNorm避免了方差接近零的情况,提升了数值稳定性。

表现性能:在某些任务中,RMSNorm可以达到或超过LayerNorm的性能。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号