神经网络组件详解:MOE混合专家模型
创作时间:
作者:
@小白创作中心
神经网络组件详解:MOE混合专家模型
引用
CSDN
1.
https://blog.csdn.net/tdzhqxy/article/details/137743371
MOE(Mixture of Experts)是一种“问题分类+领域专家”组成的神经网络架构。通过Router进行问题分类,然后选择对应的FFN-专家模型进行问题的后续计算。这种架构在训练速度、推理成本、多任务学习能力等方面具有显著优势。
MOE是什么
MOE:Mixture of Experts,可以简单理解为“问题分类+领域专家”组成的神经网络。如Google 的论文Switch Transformers中提出的一种MOE结构,通过Router进行问题分类,然后选择对应的FFN-专家模型进行问题的后续计算,其网络架构如下:
MOE内部架构
MOE架构,主要包括两个核心组件:GateNet/Router和Experts:
- GateNet/Router:判定输入应该由哪个专家模型接管处理。
- Experts:一组相对独立的专家模型,每个专家负责处理特定的输入子空间。
主流MOE数据计算流程
- 前向传播:与其他神经网络的前向传播一样。
- 门控计算/路由选择:决定上一步计算传入的 token 选择使用哪几个专家模型进行处理。专家选择策略有很多种,如Sparsely-Gated采用 TopK ;GShard使用 Top-2 ,排名最高的专家,加上按照路由权重随机选择第二个专家;Switch Transformers采用Top-1。
- 专家模型计算:待处理的token传入指定的专家模型,继续进行前向传播。
- 加权聚合:对于使用多专家选择策略计算的架构,需要对每个专家的输出进行加权聚合。
- 反向传播和更新:同其他神经网络的反向传播。
注:不是所有的MOE架构都按照上述流程进行计算,比如Adaptive Mixtures of Local Experts门控计算和专家模型计算同步进行。
MOE的优点
- 训练速度更快,效果更好:Google的Switch Transformer大模型能够在相同计算资源下,以更快的速度达到相同的PPL,而且模型是T5的15倍;
- 相同参数,推理成本低:DeepSeek的16B MoE大模型,仅在40%的计算量的情况下,性能和LLaMA 2 7B效果比肩。
- 多任务学习能力:MoE在多任务学习中具备很好的能力,Switch Transformer在所有101种语言上都显示出了性能提升,证明了其在多任务学习中的有效性。
- 稀疏性:不是所有expert都会起作用,而是极少数的expert会被使用来进行推理。这种稀疏性,也使得我们可以使用海量的experts来把模型容量做的超级大。
MOE应用方向
- 多模态:
相关论文:
- Adaptive Mixtures of Local Experts(1991)
- Learning Factored Representations in a Deep Mixture of Experts(2014)
- OUTRAGEOUSLY LARGE NEURAL NETWORKS:THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER(2017)
- GSHARD: SCALING GIANT MODELS WITH CONDITIONAL COMPUTATION AND AUTOMATIC SHARDING(2021)
- MoEfication: Transformer Feed-forward Layers are Mixtures of Experts(2022.04)
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity(2022.06)
- Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models(2023.07)
热门推荐
如何巧妙化解卧室床对窗的问题?这种化解办法有哪些风险?
我国面积最大的10个城市排名,重庆市位居第4位
小乔真正的身份是什么?
外墙岩棉板的施工工艺与流程详解
C26000 黄铜成分、特性和用途
少走30年弯路:如果把《毛选》中系统思维浓缩成10句话
户口迁移全攻略:17种不同情况所需材料清单
太秃然!2岁就开始秃了!?脱发问题,从娃娃抓起!
如何选择和使用网速测速器,提升网络体验的关键工具
数据与信息:定义、特性及相互关系
降坡泥是段泥吗?紫砂陶土中的两种重要原料详解
最新研究:我国人均睡眠时长6.75小时,这些人睡得最好
AI应用端全线爆发 算力硬件股再遭重挫
正式员工和合同制员工区别
姜萍能否考浙大?江苏省教育部门:若高考成绩够,考清华北大都行
叛逆期的孩子:探索背后的心理需求与应对策略
客户服务经理是什么岗位
论文解读:吴恩达来信AI Agent技巧—利用自我反馈的迭代细化技术
带核显的CPU不好吗?为何装机都不推荐
个税申报后发现有错误,如何更正?
西周礼乐制度:定义、特点及其历史影响
《沧元图》年番,极限条件下的典型样本
长期服用整肠生有副作用吗
冬季獭兔管理技术要点
揭秘螳螂"性食同类":为什么雌性会吃掉自己的"丈夫"?
这7种类型的头疼,可能是重病前兆,是真的吗
状元章衡随手写的这首诗千年独一份!苏轼感叹:百年无人望其项背
“3字头”存款利率绝迹,民营银行高息揽储难以为继?
留白是什么意思? 了解留白在艺术和设计中的重要性
梳子的含义详解:从相思到白头偕老的文化寓意