DeepSeek-V3中的RMSNorm均方根归一化技术详解
创作时间:
作者:
@小白创作中心
DeepSeek-V3中的RMSNorm均方根归一化技术详解
引用
CSDN
1.
https://m.blog.csdn.net/xuebodx0923/article/details/145488212
1. 概述
DeepSeek-V3研究并设置了一个多token预测(MTP)目标,该目标将预测范围扩展到每个位置的多个未来token。Multi-Token Prediction(MTP)可以显著加快模型的解码速度。在MTP中用到了RMSNorm,RMSNorm(Root Mean Square Layer Normalization,均方根归一化)是一种用于深度学习模型的归一化技术,特别适用于Transformer等架构。它作为LayerNorm(层归一化)的替代方案,旨在简化归一化过程,降低计算复杂度,同时保持或提升模型的性能。
2. RMSNorm的优势
在深度学习中,归一化技术被广泛用于稳定和加速模型训练。LayerNorm在Transformer模型中得到了广泛应用,它通过对每个样本的特征维度进行归一化,减少了内部协变量偏移。然而,LayerNorm需要计算输入特征的均值和方差,这增加了计算复杂度和开销。RMSNorm的提出是为了消除对均值计算的依赖,仅通过输入特征的均方根(RMS)进行归一化,从而简化计算,提高效率。
3. 数学公式
给定输入向量X,其中d是特征维度;
3.1 layerNorm的计算过程
计算均值和方差:
归一化操作:
3.2 RMSNorm的计算过程
计算均方根(RMS):
归一化输入向量:
应用缩放和偏移参数:
不计算均值,仅计算均方根(RMS)。
归一化操作不减去均值,直接除以均方根。
4. 总结
计算复杂度:RMSNorm减少了均值的计算,降低了整体计算量。
数值稳定性:RMSNorm避免了方差接近零的情况,提升了数值稳定性。
表现性能:在某些任务中,RMSNorm可以达到或超过LayerNorm的性能。
热门推荐
朊病毒是怎么产生的
姜丝可乐的功效与作用
《推背图》:神秘的预言之书,来历是什么?
红细胞计数高多少有危险?
星露谷物语怎样快速达成农场主成就
为什么盒装奶是950毫升,不是1000毫升?和这个男人有关
如何通过技术分析进行股票筛选?这种筛选方法有哪些实际应用?
为何电动车换了新电池还是跑不远?原因找到了,改善方法告诉你
海油信科新通讯模式在远海油气平台上试运营
炒米热量高吗 减肥期间能吃吗
叶子板更换是事故车吗?事故车的认定标准是什么?
20个打卡地!到武汉没去等于白来?
信用卡巨额债务还不上,被金融机构告到法院最佳处理方法
冬至养生“四字诀”:早卧迟起、少盐多苦、泡脚暖足、按摩穴位
八字命理学中的五行比例计算方法
计算机基础学习与网络安全专业详解:从入门到就业前景
晕车药的原理与使用指南
当谣言遇上偏见:方大同“被去世”背后的素食迷思
NVMe-Over-CXL技术详解:存储与内存融合的未来之路
NVMe的内部实现原理
亚克力墙面固定(墙板一般用结构胶还是免钉胶)
解决用电焦虑,延长手机电池寿命,官方建议,建议收藏
频谱分析仪怎么测量信噪比?
老年人咳嗽不止?了解“痰湿阻肺”的真相
用八字怎么推算自己的命运 如何用八字测命运
科幻小说书单:为孩子的想象力插上翅膀
门头挂白袋子代表什么意思
破解设备管理软件的风险与替代方案
作为CIO,必须清醒面对人工智能(AI)在企业数字化转型中的深度应用与挑战
快速识别脑卒中:BE FAST