DeepSeek-V3中的RMSNorm均方根归一化技术详解
创作时间:
作者:
@小白创作中心
DeepSeek-V3中的RMSNorm均方根归一化技术详解
引用
CSDN
1.
https://m.blog.csdn.net/xuebodx0923/article/details/145488212
1. 概述
DeepSeek-V3研究并设置了一个多token预测(MTP)目标,该目标将预测范围扩展到每个位置的多个未来token。Multi-Token Prediction(MTP)可以显著加快模型的解码速度。在MTP中用到了RMSNorm,RMSNorm(Root Mean Square Layer Normalization,均方根归一化)是一种用于深度学习模型的归一化技术,特别适用于Transformer等架构。它作为LayerNorm(层归一化)的替代方案,旨在简化归一化过程,降低计算复杂度,同时保持或提升模型的性能。
2. RMSNorm的优势
在深度学习中,归一化技术被广泛用于稳定和加速模型训练。LayerNorm在Transformer模型中得到了广泛应用,它通过对每个样本的特征维度进行归一化,减少了内部协变量偏移。然而,LayerNorm需要计算输入特征的均值和方差,这增加了计算复杂度和开销。RMSNorm的提出是为了消除对均值计算的依赖,仅通过输入特征的均方根(RMS)进行归一化,从而简化计算,提高效率。
3. 数学公式
给定输入向量X,其中d是特征维度;
3.1 layerNorm的计算过程
计算均值和方差:
归一化操作:
3.2 RMSNorm的计算过程
计算均方根(RMS):
归一化输入向量:
应用缩放和偏移参数:
不计算均值,仅计算均方根(RMS)。
归一化操作不减去均值,直接除以均方根。
4. 总结
计算复杂度:RMSNorm减少了均值的计算,降低了整体计算量。
数值稳定性:RMSNorm避免了方差接近零的情况,提升了数值稳定性。
表现性能:在某些任务中,RMSNorm可以达到或超过LayerNorm的性能。
热门推荐
晚上喝黑咖啡真的会让你失眠吗?
咖啡因如何影响你的睡眠周期?
《生命时报》&《临床睡眠医学杂志》揭秘:咖啡因对睡眠的影响
冬季北京自驾游,车辆检查不可少!
北京自驾游打卡历史遗迹,你不可错过的五大景点
八载登攀顶峰笑 神山秀水新姿绽——连城县冠豸山景区创建国家5A级旅游景区侧记
森林覆盖率超77%的区如何打造“诗与远方”|“山海连城 绿美深圳”调研走进大鹏
洗马花灯冲刺国家级非遗,传承300年文化
长沙地铁建设新动向:8号线成“换乘王”,13号线贯穿河西
长沙橘子洲头:从晋代沙洲到红色文化地标
长沙48小时:经典景点与地道美食完全攻略
广深港高铁"地铁化":大湾区融合发展的新引擎
轨道交通重塑沿线镇,“大湾区大号地铁”带来了什么?
“湾区大号地铁”串起5城人才、资金、产业,全程最高票价153元
奥运选拔比拼:7人达标争3席,轮滑选手跨界拼奥运
2小时24分钟直达承德:周末游避暑山庄、普宁寺全攻略
信息化战争的新时代特征与制胜机理
三峡人家:山水诗画里的人文长卷
冬游宜昌:探秘屈原祠与土家女儿会
正确学习方法+自主学习态度=优等生
揭秘哈佛cum laude:从学术标准到成功案例
数据分析中的cum到底怎么用?
掌握拨字技巧,提升语言表达与社交自信的重要性分析
电力企业如何玩转市场变局?
中电联发布《中国电力行业年度发展报告2024》:新能源发电成主力
新能源消纳与电力市场建设:双轮驱动助力“双碳”目标实现
2024年电力行业年度报告出炉:对宏观经济影响几何?
34.7米:天安门城楼高度背后的建筑美学与历史意义
30.8亿人次跨城出行创新高,北京人口流动现新变化
布洛芬缓释胶囊的正确服用方法