DeepSeek-V3中的RMSNorm均方根归一化技术详解
创作时间:
作者:
@小白创作中心
DeepSeek-V3中的RMSNorm均方根归一化技术详解
引用
CSDN
1.
https://m.blog.csdn.net/xuebodx0923/article/details/145488212
1. 概述
DeepSeek-V3研究并设置了一个多token预测(MTP)目标,该目标将预测范围扩展到每个位置的多个未来token。Multi-Token Prediction(MTP)可以显著加快模型的解码速度。在MTP中用到了RMSNorm,RMSNorm(Root Mean Square Layer Normalization,均方根归一化)是一种用于深度学习模型的归一化技术,特别适用于Transformer等架构。它作为LayerNorm(层归一化)的替代方案,旨在简化归一化过程,降低计算复杂度,同时保持或提升模型的性能。
2. RMSNorm的优势
在深度学习中,归一化技术被广泛用于稳定和加速模型训练。LayerNorm在Transformer模型中得到了广泛应用,它通过对每个样本的特征维度进行归一化,减少了内部协变量偏移。然而,LayerNorm需要计算输入特征的均值和方差,这增加了计算复杂度和开销。RMSNorm的提出是为了消除对均值计算的依赖,仅通过输入特征的均方根(RMS)进行归一化,从而简化计算,提高效率。
3. 数学公式
给定输入向量X,其中d是特征维度;
3.1 layerNorm的计算过程
计算均值和方差:
归一化操作:
3.2 RMSNorm的计算过程
计算均方根(RMS):
归一化输入向量:
应用缩放和偏移参数:
不计算均值,仅计算均方根(RMS)。
归一化操作不减去均值,直接除以均方根。
4. 总结
计算复杂度:RMSNorm减少了均值的计算,降低了整体计算量。
数值稳定性:RMSNorm避免了方差接近零的情况,提升了数值稳定性。
表现性能:在某些任务中,RMSNorm可以达到或超过LayerNorm的性能。
热门推荐
长期喝藏茵陈的危害
劳动合同试用期合规要点解析:从法律条文到数字化管理实践
身份证被盗用网络贷款报警有用吗
大阪到京都交通指南:新干线、电车、巴士等多种出行方式详解
花30万买的奥迪才开7小时变速箱发生故障,能退车吗?长沙恒信奥龙回应
Matlab Simulink 电力电子仿真-三相桥式全控整流电路分析
高血压用螺内酯副作用大?这种替代药国内已上市!用好它,牢记这3点
杜鹃的花语是什么?杜鹃的寓意和象征
银行的中间业务收入主要来源于哪里?
企业标准化管理体系包括(企业标准化管理体系的全面解析)
「动物百科」为什么企鹅能在寒冷的南极生存?
闽越古城的历史回响
澳洲留学必读的9类书籍推荐
如何构建有效的评分标准
头痛有什么方法治疗
“情绪价值”被滥用?我们该如何正确打开
9种海报构图方式,告别排版困扰
暗黑破坏神2符文之语装备大全:从两孔到六孔的终极指南
了解毛孔收缩的成分并掌握正确的护肤方法对于改善毛孔问题至关重要
为什么有的人满脸“老年斑”,有的却干干净净呢?中医说出实情:这处都堵死了!
浴室门什么材质比较好?如何选择合适的浴室门
增强自我价值感初中心理教学设计
租用微信账号与故意伤害致人重伤的法律责任分析
期权希腊字母详解:Delta、Gamma、Theta、Vega和Rho
如何打开、关闭和卸载Windows安全中心的服务
3岁孩子老是咳嗽怎么回事
初中历史知识点:雅典民主政治
电商数据分析工具应用案例分析与效果评估
探索外星生命的新突破,“德雷克方程”也许可以帮助解答!
移民新西兰要了解当地医疗体系