神经网络组件详解:MOE混合专家模型
创作时间:
作者:
@小白创作中心
神经网络组件详解:MOE混合专家模型
引用
CSDN
1.
https://blog.csdn.net/tdzhqxy/article/details/137743371
MOE(Mixture of Experts)是一种“问题分类+领域专家”组成的神经网络架构。通过Router进行问题分类,然后选择对应的FFN-专家模型进行问题的后续计算。这种架构在训练速度、推理成本、多任务学习能力等方面具有显著优势。
MOE是什么
MOE:Mixture of Experts,可以简单理解为“问题分类+领域专家”组成的神经网络。如Google 的论文Switch Transformers中提出的一种MOE结构,通过Router进行问题分类,然后选择对应的FFN-专家模型进行问题的后续计算,其网络架构如下:
MOE内部架构
MOE架构,主要包括两个核心组件:GateNet/Router和Experts:
- GateNet/Router:判定输入应该由哪个专家模型接管处理。
- Experts:一组相对独立的专家模型,每个专家负责处理特定的输入子空间。
主流MOE数据计算流程
- 前向传播:与其他神经网络的前向传播一样。
- 门控计算/路由选择:决定上一步计算传入的 token 选择使用哪几个专家模型进行处理。专家选择策略有很多种,如Sparsely-Gated采用 TopK ;GShard使用 Top-2 ,排名最高的专家,加上按照路由权重随机选择第二个专家;Switch Transformers采用Top-1。
- 专家模型计算:待处理的token传入指定的专家模型,继续进行前向传播。
- 加权聚合:对于使用多专家选择策略计算的架构,需要对每个专家的输出进行加权聚合。
- 反向传播和更新:同其他神经网络的反向传播。
注:不是所有的MOE架构都按照上述流程进行计算,比如Adaptive Mixtures of Local Experts门控计算和专家模型计算同步进行。
MOE的优点
- 训练速度更快,效果更好:Google的Switch Transformer大模型能够在相同计算资源下,以更快的速度达到相同的PPL,而且模型是T5的15倍;
- 相同参数,推理成本低:DeepSeek的16B MoE大模型,仅在40%的计算量的情况下,性能和LLaMA 2 7B效果比肩。
- 多任务学习能力:MoE在多任务学习中具备很好的能力,Switch Transformer在所有101种语言上都显示出了性能提升,证明了其在多任务学习中的有效性。
- 稀疏性:不是所有expert都会起作用,而是极少数的expert会被使用来进行推理。这种稀疏性,也使得我们可以使用海量的experts来把模型容量做的超级大。
MOE应用方向
- 多模态:
相关论文:
- Adaptive Mixtures of Local Experts(1991)
- Learning Factored Representations in a Deep Mixture of Experts(2014)
- OUTRAGEOUSLY LARGE NEURAL NETWORKS:THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER(2017)
- GSHARD: SCALING GIANT MODELS WITH CONDITIONAL COMPUTATION AND AUTOMATIC SHARDING(2021)
- MoEfication: Transformer Feed-forward Layers are Mixtures of Experts(2022.04)
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity(2022.06)
- Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models(2023.07)
热门推荐
黄水晶球:家居风水的财富之石
黄水晶助你财运飙升!
黄水晶:缓解焦虑、提升自信的自然疗法
手表佩戴全攻略:从保养到场合选择的实用指南
驼峰航线:昆明抗战遗址背后的英雄故事
AI黑科技助力视频消重,你get到了吗?
家庭暴力下的孩子:如何保护他们的心灵?
兰花多久开一次花
冬奥团结协作的精神是什么
底线伦理:现代人的道德指南针
英语中如何表达"底线"?这些地道表达你一定要知道!
职场中的你,如何坚守职业操守?
金凯特罗教你如何设立底线守护心理健康
《蛋仔派对》闪耀蛋技能解析:新手必看!
“斑竹一枝千滴泪,红霞万朵百重衣.”背后的典故
李白豪迈之作背后的故事:解读《将进酒》的创作背景
工博会看点⑩|“戏曲数字人”亮相!这个项目以元宇宙赋能传统文化
数字技术助力戏曲焕新,网友点赞:这才是真正的中国之美!
崇左太平古城:千年历史与壮乡文化的完美结合
崇明水仙怎么养,只需做好这三步!
水仙花的作用与养殖方法
水仙花的寓意和象征,你真的了解吗?看完涨知识了!建议收藏
武功镇东河滩会:“中国商贸的活化石”
头痛总是反复出现,原因竟然是它
一个简单的养肝法!白开水里加点“料”,肝火降了,皮肤好了
睡觉是最好的“肝脏修复剂”!睡不好让肝被伤透、悄悄招来癌
桂林必打卡:东西巷里的美食天堂
t检验的几种常见类型及其应用条件
传统戏曲形式的现代传播模式
佛手片的功效与作用