问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

从1991到2024：MoE技术如何助力GPT-4实现突破？

创作时间:

作者:

@小白创作中心

从1991到2024：MoE技术如何助力GPT-4实现突破？

引用

CSDN

等

9

来源

1.

https://blog.csdn.net/acelit/article/details/140078593

2.

https://blog.csdn.net/jinselizhi/article/details/139003111

3.

https://m.sohu.com/a/779100931_121857546/?pvid=000115_3w_a

4.

https://m.sohu.com/a/776904517_610300/?pvid=000115_3w_a

5.

https://finance.sina.com.cn/tech/roll/2024-05-07/doc-inaukkhi9419412.shtml

6.

https://36kr.com/p/2764338482988807

7.

https://mparticle.uc.cn/article_org.html?uc_param_str=frdnsnpfvecpntnwprdssskt#!wm_cid=612344324750839808!!wm_id=b79200ab8d9f4c06ac4428f9470bd15f

8.

https://developer.volcengine.com/articles/7390576064247889958

9.

https://zilliz.com.cn/blog/what-is-mixture-of-experts

1991年，Geoffrey Hinton和Michael I. Jordan发表了一篇开创性论文《Adaptive Mixtures of Local Experts》，提出了混合专家模型（Mixture of Experts，简称MoE）的概念。这一技术在当时并未引起太多关注，但在30多年后的今天，却成为了推动人工智能发展的关键技术之一，被广泛应用于包括GPT-4在内的大型语言模型中。

01

从理论到实践：MoE技术的发展历程

MoE的核心思想是“术业有专攻”。它将复杂的任务分解为多个子任务，每个子任务由专门的“专家”模型负责处理，最后通过一个“门控网络”协调各个专家的输出，生成最终结果。这种设计不仅提高了模型的效率，还使其能够处理更复杂的任务。

在Hinton和Jordan提出MoE概念后的20多年里，这项技术并没有得到太多关注。直到2017年，Google在论文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》中将MoE应用于LSTM模型，训出了最大137B参数的模型，才重新引发了人们对这项技术的兴趣。

进入Transformer时代后，MoE技术得到了更广泛的应用。2020年，Google在《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》中，首次将MoE应用于Transformer模型，实现了从12.5B到600B参数的模型训练。2021年，Google又推出了Switch Transformers，最大参数量达到1.6T，进一步推动了MoE技术的发展。

02

MoE技术在GPT-4中的应用

2024年，OpenAI发布的GPT-4将MoE技术推向了新的高度。虽然OpenAI并未公开GPT-4的具体技术细节，但根据业内专家的分析，GPT-4很可能采用了类似MoE的架构。有研究指出，GPT-4的参数量可能高达1.7T，远超其前代GPT-3的175B参数。

MoE技术之所以能在GPT-4中发挥重要作用，主要得益于其独特的优点：

高效性：MoE通过稀疏激活机制，仅需少量专家参与计算，显著降低资源消耗。在GPT-4中，这种机制使得模型能够在保持高性能的同时，降低计算成本。
扩展性强：MoE支持万亿级参数规模，适应大型分布式系统。这对于GPT-4这样需要处理海量数据的模型来说至关重要。
多任务优化：MoE能够在不同任务间共享知识，提升整体泛化能力。这使得GPT-4能够在多种场景下表现出色，从文本生成到代码编写，从数学问题到创意写作。

03

MoE技术的优缺点

尽管MoE技术在GPT-4等大型语言模型中表现出色，但它也存在一些挑战：

VRAM需求高：虽然MoE在计算时只激活部分专家，但所有专家都需要加载到内存中，这导致了较高的VRAM需求。
微调困难：历史上，MoE在微调方面存在困难，容易导致过拟合。虽然近年来在这方面已取得进展，但这仍然是一个需要关注的问题。
通信开销：在分布式训练中，专家间的通信会增加额外成本，尤其是在大规模模型中。

04

最新进展与未来展望

2024年4月，APUS与新旦智能联合研发的APUS-xDAN大模型4.0（MoE）在GitHub上开源。这是国内首个开源的千亿参数MoE架构大模型，其综合性能达到GPT-4的90%。更令人瞩目的是，该模型能够在低端算力芯片（如4090）上顺畅运行，为AI技术的普及提供了新的可能性。

从1991年的理论提出，到2024年的实际应用，MoE技术的发展历程见证了人工智能领域的重大进步。随着研究的深入和技术的完善，MoE有望在更多领域发挥重要作用，推动人工智能向更高效、更智能的方向发展。

热门推荐

绿色供应链 | 阳光之下的合作博弈：中国光伏可持续供应链建设如何破局前行？

绿色供应链 | 阳光之下的合作博弈：中国光伏可持续供应链建设如何破局前行？

一种基于模块化设计的大型航天载荷的制作方法

一种基于模块化设计的大型航天载荷的制作方法

Nginx 如何代理转发传递真实 ip 地址？

Nginx 如何代理转发传递真实 ip 地址？

解读意识的本质：它能否独立存在？

解读意识的本质：它能否独立存在？

新手如何规划健身计划

新手如何规划健身计划

铄字为何不能随便取名：起名忌讳与文化内涵

铄字为何不能随便取名：起名忌讳与文化内涵

十大必备的虎跳峡徒步装备有哪些虎跳峡徒步需要准备什么物品

十大必备的虎跳峡徒步装备有哪些虎跳峡徒步需要准备什么物品

泰州旅游路线攻略两日游最佳路线

泰州旅游路线攻略两日游最佳路线

驾照一年实习期满再开车，还需贴新手标吗？交警解答来了

驾照一年实习期满再开车，还需贴新手标吗？交警解答来了

早读 | 膝关节解剖高清图解，基础必备！

早读 | 膝关节解剖高清图解，基础必备！

元宵节手抄报创意设计指南，传统文化与现代元素的完美融合

元宵节手抄报创意设计指南，传统文化与现代元素的完美融合

建筑项目管理课怎么学好

建筑项目管理课怎么学好

房屋租赁合同纠纷中的恢复原状问题

房屋租赁合同纠纷中的恢复原状问题

北京理工大学2025年录取分数线预测：最低549分能上

北京理工大学2025年录取分数线预测：最低549分能上

《风中的火焰》大结局：2大案件真相大白，3少年人生被毁

《风中的火焰》大结局：2大案件真相大白，3少年人生被毁

亚马逊为什么要求化妆产品需做HRIPT测试？BCOP认证是什么？

亚马逊为什么要求化妆产品需做HRIPT测试？BCOP认证是什么？

默茨胜选后，德国站在十字路口：跟着世界向右转，就能赌对吗？

默茨胜选后，德国站在十字路口：跟着世界向右转，就能赌对吗？

手脚抽筋怎么办？5种有效缓解方法

手脚抽筋怎么办？5种有效缓解方法

让腰越来越细的 6 个办法

让腰越来越细的 6 个办法

烈日当头！怎么从阳光下安全地获取维生素D？

烈日当头！怎么从阳光下安全地获取维生素D？

西兰公国：一个仅有5人的"国家"如何挑战传统主权边界

西兰公国：一个仅有5人的"国家"如何挑战传统主权边界

应急突发事件班会

应急突发事件班会

认知障碍重视对患者认知障碍的康复训练

认知障碍重视对患者认知障碍的康复训练

东契奇伤情真相揭露，威廉姆斯背负责任，杜兰特愤怒指责全队表现

东契奇伤情真相揭露，威廉姆斯背负责任，杜兰特愤怒指责全队表现

中超首轮国安懵了半场拿下首胜！塞蒂恩还在调试

中超首轮国安懵了半场拿下首胜！塞蒂恩还在调试

东莞持续推进古建筑保护活化让古村落焕发新生机

东莞持续推进古建筑保护活化让古村落焕发新生机

冬天耐寒的水生植物排行榜：菖蒲上榜，零下10度也能平安过冬

冬天耐寒的水生植物排行榜：菖蒲上榜，零下10度也能平安过冬

老子主张用"渊默"之法，解释"道"之本质

老子主张用"渊默"之法，解释"道"之本质

离心风机维护保养内容有哪些方面？这几点要知道

离心风机维护保养内容有哪些方面？这几点要知道

证书能替代技能特长描述吗？

证书能替代技能特长描述吗？

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号