神经网络组件详解:MOE混合专家模型
创作时间:
作者:
@小白创作中心
神经网络组件详解:MOE混合专家模型
引用
CSDN
1.
https://blog.csdn.net/tdzhqxy/article/details/137743371
MOE(Mixture of Experts)混合专家模型是一种先进的神经网络架构,通过将问题分配给专门的领域专家模型来提高计算效率和准确性。这种架构在大模型训练中展现出独特的优势,能够实现更快的训练速度、更低的推理成本,并在多任务学习中表现出色。本文将详细介绍MOE模型的内部结构、计算流程及其主要优点。
MOE是什么
MOE:Mixture of Experts,可以简单理解为“问题分类+领域专家”组成的神经网络。如Google 的论文Switch Transformers中提出的一种MOE结构,通过Router进行问题分类,然后选择对应的FFN-专家模型进行问题的后续计算,其网络架构如下:
MOE内部架构
MOE架构,主要包括两个核心组件:GateNet/Router和Experts:
- GateNet/Router:判定输入应该由哪个专家模型接管处理。
- Experts:一组相对独立的专家模型,每个专家负责处理特定的输入子空间。
主流MOE数据计算流程
- 前向传播:与其他神经网络的前向传播一样。
- 门控计算/路由选择:决定上一步计算传入的 token 选择使用哪几个专家模型进行处理。专家选择策略有很多种,如Sparsely-Gated采用 TopK ;GShard使用 Top-2 ,排名最高的专家,加上按照路由权重随机选择第二个专家;Switch Transformers采用Top-1。
- 专家模型计算:待处理的token传入指定的专家模型,继续进行前向传播。
- 加权聚合:对于使用多专家选择策略计算的架构,需要对每个专家的输出进行加权聚合。
- 反向传播和更新:同其他神经网络的反向传播。
注:不是所有的MOE架构都按照上述流程进行计算,比如Adaptive Mixtures of Local Experts门控计算和专家模型计算同步进行。
MOE的优点
- 训练速度更快,效果更好:Google的Switch Transformer大模型能够在相同计算资源下,以更快的速度达到相同的PPL,而且模型是T5的15倍;
- 相同参数,推理成本低:DeepSeek的16B MoE大模型,仅在40%的计算量的情况下,性能和LLaMA 2 7B效果比肩。
- 多任务学习能力:MoE在多任务学习中具备很好的能力,Switch Transformer在所有101种语言上都显示出了性能提升,证明了其在多任务学习中的有效性。
- 稀疏性:不是所有expert都会起作用,而是极少数的expert会被使用来进行推理。这种稀疏性,也使得我们可以使用海量的experts来把模型容量做的超级大。
MOE应用方向
- 多模态:
相关论文:
- Adaptive Mixtures of Local Experts(1991)
- Learning Factored Representations in a Deep Mixture of Experts(2014)
- OUTRAGEOUSLY LARGE NEURAL NETWORKS:THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER(2017)
- GSHARD: SCALING GIANT MODELS WITH CONDITIONAL COMPUTATION AND AUTOMATIC SHARDING(2021)
- MoEfication: Transformer Feed-forward Layers are Mixtures of Experts(2022.04)
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity(2022.06)
- Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models(2023.07)
热门推荐
秦惠文王:奠定霸业的关键君主
成都到西安自驾游,全程费用揭秘!
京昆高速线:成都到西安自驾游省钱攻略
成都到西安自驾游,京昆高速最划算!
今晚大乐透141期,大数据揭秘幸运号码
用成语智慧赋能职场新人培训
大乐透25003期今晚开奖,专家最新分析出炉!
今晚大乐透开奖,教你破解选号心理学
今晚大乐透选号攻略:谢涛预测0字头3字头号码将走热
生姜枸杞配蜂蜜柠檬,这款醒酒汤很管用
华为首席法务官宋柳平:华为全球知识产权战略布局及思考
2024精选:10款适合情侣闺蜜的双人合作游戏
铁原阻击战:志愿军63军13天坚守扭转战局
补骨脂为何止升转落
职场人早醒失眠的科学解决方案:认知、光照与营养三管齐下
教你一键拦截境外诈骗电话
社交媒体上的风评:形成机制、影响与管理
Android电池管理揭秘:从系统架构到优化建议
白菜大变身:四种创意食谱让你爱上这个冬天
合理膳食 均衡营养 | 膳食平衡的八条准则,你知道吗?
广东婚庆行业:个性化服务如何提升婚纱照体验?
张红甫教你做醋溜白菜家常美味20秒学会
冲绳本岛行程海滩爱好者的 5 天完整旅行指南
乡村游 国风热 夜经济——“五一”假期全国旅游市场热点纷呈
植物营养学基础与应用
家里养绿箩,用一个小技巧,分叉多枝叶多,长得绿油油特别旺!
穗花婆婆纳的介绍和养护要点
哪些花卉装饰作用比较好,可以在家里种植
从《哈利波特》到《指环王》,10部豆瓣评分高奇幻经典电影推荐!
12部动画电影,一定要和孩子一起看!!!