DeepSeek-V3中的RMSNorm均方根归一化技术详解
创作时间:
作者:
@小白创作中心
DeepSeek-V3中的RMSNorm均方根归一化技术详解
引用
CSDN
1.
https://m.blog.csdn.net/xuebodx0923/article/details/145488212
1. 概述
DeepSeek-V3研究并设置了一个多token预测(MTP)目标,该目标将预测范围扩展到每个位置的多个未来token。Multi-Token Prediction(MTP)可以显著加快模型的解码速度。在MTP中用到了RMSNorm,RMSNorm(Root Mean Square Layer Normalization,均方根归一化)是一种用于深度学习模型的归一化技术,特别适用于Transformer等架构。它作为LayerNorm(层归一化)的替代方案,旨在简化归一化过程,降低计算复杂度,同时保持或提升模型的性能。
2. RMSNorm的优势
在深度学习中,归一化技术被广泛用于稳定和加速模型训练。LayerNorm在Transformer模型中得到了广泛应用,它通过对每个样本的特征维度进行归一化,减少了内部协变量偏移。然而,LayerNorm需要计算输入特征的均值和方差,这增加了计算复杂度和开销。RMSNorm的提出是为了消除对均值计算的依赖,仅通过输入特征的均方根(RMS)进行归一化,从而简化计算,提高效率。
3. 数学公式
给定输入向量X,其中d是特征维度;
3.1 layerNorm的计算过程
计算均值和方差:
归一化操作:
3.2 RMSNorm的计算过程
计算均方根(RMS):
归一化输入向量:
应用缩放和偏移参数:
不计算均值,仅计算均方根(RMS)。
归一化操作不减去均值,直接除以均方根。
4. 总结
计算复杂度:RMSNorm减少了均值的计算,降低了整体计算量。
数值稳定性:RMSNorm避免了方差接近零的情况,提升了数值稳定性。
表现性能:在某些任务中,RMSNorm可以达到或超过LayerNorm的性能。
热门推荐
金庸武侠世界中的绝世武学:龙象般若功十三层之威
扎根边境村的青年才俊们
偏头痛是否与咖啡因有关
狗狗回家第一天的注意事项(如何让狗狗适应新环境)
环境工程师报考条件详解
威海房价的实际情况如何进行客观了解?了解后如何做出合理判断?
直播平台概率游戏刑事风险:罪名辨析、责任划分与辩护策略
《长干行·其一》诗词鉴赏
哪吒的黑眼圈 还可以抢救下
iPhone安全检查功能详解:保护隐私,远离监控
国产民机C909:四大突破引领中国航空工业新高度
泰山:承载历史与文化的中国“国山”
编程中single什么意思
水仙花种植与生长全指南(时间、周期、技巧、注意事项,应有尽有)
酒的五行属性是什么
AJAX 框架代码如何提高客户端响应速度
停止骑行后,身体究竟会发生什么?又该如何重拾往日活力?
品味三北豆酥糖,领略宁波传统风味
个人财产受损怎么办?法律维权指南
万人敌,中国历史上明确记载共24人,除了关羽张飞,你还知道谁?
【健康科普】人各有“痣”,带您正确认识色素痣
叶面积指数:从植物生长到作物产量的关键指标
天津大学、南开中学海棠季活动即将开启,多处赏花攻略发布
应急科普丨预防一氧化碳中毒知识
VLOOKUP函数全面解析:基础用法与模糊匹配技巧
为行业人才画像 猎聘发布《新能源行业人才行业解构报告》
皮肤出现红斑不痛不痒也不退?可能暗藏这些风险
市场规模突破1.2亿美元,它是让人“又爱又恨”的药食同源!
雄商高铁最新进展:梁山站、郓城站钢结构天桥吊装顺利完成
雄商高铁最新进展:最大梁场完成标段内箱梁预制任务