神经网络组件详解:MOE混合专家模型
创作时间:
作者:
@小白创作中心
神经网络组件详解:MOE混合专家模型
引用
CSDN
1.
https://blog.csdn.net/tdzhqxy/article/details/137743371
MOE(Mixture of Experts)混合专家模型是一种先进的神经网络架构,通过将问题分配给专门的领域专家模型来提高计算效率和准确性。这种架构在大模型训练中展现出独特的优势,能够实现更快的训练速度、更低的推理成本,并在多任务学习中表现出色。本文将详细介绍MOE模型的内部结构、计算流程及其主要优点。
MOE是什么
MOE:Mixture of Experts,可以简单理解为“问题分类+领域专家”组成的神经网络。如Google 的论文Switch Transformers中提出的一种MOE结构,通过Router进行问题分类,然后选择对应的FFN-专家模型进行问题的后续计算,其网络架构如下:
MOE内部架构
MOE架构,主要包括两个核心组件:GateNet/Router和Experts:
- GateNet/Router:判定输入应该由哪个专家模型接管处理。
- Experts:一组相对独立的专家模型,每个专家负责处理特定的输入子空间。
主流MOE数据计算流程
- 前向传播:与其他神经网络的前向传播一样。
- 门控计算/路由选择:决定上一步计算传入的 token 选择使用哪几个专家模型进行处理。专家选择策略有很多种,如Sparsely-Gated采用 TopK ;GShard使用 Top-2 ,排名最高的专家,加上按照路由权重随机选择第二个专家;Switch Transformers采用Top-1。
- 专家模型计算:待处理的token传入指定的专家模型,继续进行前向传播。
- 加权聚合:对于使用多专家选择策略计算的架构,需要对每个专家的输出进行加权聚合。
- 反向传播和更新:同其他神经网络的反向传播。
注:不是所有的MOE架构都按照上述流程进行计算,比如Adaptive Mixtures of Local Experts门控计算和专家模型计算同步进行。
MOE的优点
- 训练速度更快,效果更好:Google的Switch Transformer大模型能够在相同计算资源下,以更快的速度达到相同的PPL,而且模型是T5的15倍;
- 相同参数,推理成本低:DeepSeek的16B MoE大模型,仅在40%的计算量的情况下,性能和LLaMA 2 7B效果比肩。
- 多任务学习能力:MoE在多任务学习中具备很好的能力,Switch Transformer在所有101种语言上都显示出了性能提升,证明了其在多任务学习中的有效性。
- 稀疏性:不是所有expert都会起作用,而是极少数的expert会被使用来进行推理。这种稀疏性,也使得我们可以使用海量的experts来把模型容量做的超级大。
MOE应用方向
- 多模态:
相关论文:
- Adaptive Mixtures of Local Experts(1991)
- Learning Factored Representations in a Deep Mixture of Experts(2014)
- OUTRAGEOUSLY LARGE NEURAL NETWORKS:THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER(2017)
- GSHARD: SCALING GIANT MODELS WITH CONDITIONAL COMPUTATION AND AUTOMATIC SHARDING(2021)
- MoEfication: Transformer Feed-forward Layers are Mixtures of Experts(2022.04)
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity(2022.06)
- Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models(2023.07)
热门推荐
清炖猪肋条:一道经典的中式炖菜
铬是什么?缺铬会影响血糖?营养师告诉你铬有多重要!
二手机选购指南:揭开翻新机陷阱,教你买到靠谱二手智能手机
探访王阳明的大余足迹
IPX8与IP68:哪个更适合你的需求?
红楼梦:妙玉被强盗掳走?续书纯属瞎编,她的结局作者早有安排
铬元素的化学性质、用途与安全信息
台儿庄大捷到底谁是主力
台儿庄战役,为何只有李宗仁能指挥这么多杂牌军?换别人不行吗
尼罗河:非洲最长的河
金融调解中心成立需要提前准备哪些材料
让网速“追上”杭温高铁高速度 温州段167个5G基站确保网络信号不卡顿

未来十年贬值最快的东西:趋势、挑战与应对策略
维生素B2副作用如何影响你的健康?
日语命令形:概念、用法与实际应用场景详解
民间高利贷怎么报警立案
为什么财务报表中的自由现金流数据至关重要?
黑洞存在生命吗?事件视界内的能量意识,如何逃离黑洞的极端引力
市净率和市盈率的区别与相对估值
天蝎座恋爱失败的原因
天蝎男冷暴力是不是不爱了:解析关系中的情感操控与法律责任
农作物损失、人员受伤……多地频现野猪致害,如何科学防控?
药片为什么是五颜六色的?胶囊为何都是“撞色”搭配?
在自家承包地搭建大棚是否违法?法律这样规定
独栋别墅装饰设计指南:打造奢华温馨家园
正畸期间是否可以进行隆鼻手术?了解正畸与隆鼻的关系与影响
最新!寻亲女硕士事件,央媒发声!张某已被采取刑事强制措施
瓷砖背胶二合一的好不好?装修选择需谨慎
苹果安装包后缀名是什么(揭秘苹果安装包文件的格式及命名规则)
猫咪爱“盯着你”,其实是这些原因,很多人都误会了!