问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

从1991到2024:MoE技术如何助力GPT-4实现突破?

创作时间:
作者:
@小白创作中心

从1991到2024:MoE技术如何助力GPT-4实现突破?

引用
CSDN
9
来源
1.
https://blog.csdn.net/acelit/article/details/140078593
2.
https://blog.csdn.net/jinselizhi/article/details/139003111
3.
https://m.sohu.com/a/779100931_121857546/?pvid=000115_3w_a
4.
https://m.sohu.com/a/776904517_610300/?pvid=000115_3w_a
5.
https://finance.sina.com.cn/tech/roll/2024-05-07/doc-inaukkhi9419412.shtml
6.
https://36kr.com/p/2764338482988807
7.
https://mparticle.uc.cn/article_org.html?uc_param_str=frdnsnpfvecpntnwprdssskt#!wm_cid=612344324750839808!!wm_id=b79200ab8d9f4c06ac4428f9470bd15f
8.
https://developer.volcengine.com/articles/7390576064247889958
9.
https://zilliz.com.cn/blog/what-is-mixture-of-experts

1991年,Geoffrey Hinton和Michael I. Jordan发表了一篇开创性论文《Adaptive Mixtures of Local Experts》,提出了混合专家模型(Mixture of Experts,简称MoE)的概念。这一技术在当时并未引起太多关注,但在30多年后的今天,却成为了推动人工智能发展的关键技术之一,被广泛应用于包括GPT-4在内的大型语言模型中。

01

从理论到实践:MoE技术的发展历程

MoE的核心思想是“术业有专攻”。它将复杂的任务分解为多个子任务,每个子任务由专门的“专家”模型负责处理,最后通过一个“门控网络”协调各个专家的输出,生成最终结果。这种设计不仅提高了模型的效率,还使其能够处理更复杂的任务。

在Hinton和Jordan提出MoE概念后的20多年里,这项技术并没有得到太多关注。直到2017年,Google在论文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》中将MoE应用于LSTM模型,训出了最大137B参数的模型,才重新引发了人们对这项技术的兴趣。

进入Transformer时代后,MoE技术得到了更广泛的应用。2020年,Google在《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》中,首次将MoE应用于Transformer模型,实现了从12.5B到600B参数的模型训练。2021年,Google又推出了Switch Transformers,最大参数量达到1.6T,进一步推动了MoE技术的发展。

02

MoE技术在GPT-4中的应用

2024年,OpenAI发布的GPT-4将MoE技术推向了新的高度。虽然OpenAI并未公开GPT-4的具体技术细节,但根据业内专家的分析,GPT-4很可能采用了类似MoE的架构。有研究指出,GPT-4的参数量可能高达1.7T,远超其前代GPT-3的175B参数。

MoE技术之所以能在GPT-4中发挥重要作用,主要得益于其独特的优点:

  1. 高效性:MoE通过稀疏激活机制,仅需少量专家参与计算,显著降低资源消耗。在GPT-4中,这种机制使得模型能够在保持高性能的同时,降低计算成本。

  2. 扩展性强:MoE支持万亿级参数规模,适应大型分布式系统。这对于GPT-4这样需要处理海量数据的模型来说至关重要。

  3. 多任务优化:MoE能够在不同任务间共享知识,提升整体泛化能力。这使得GPT-4能够在多种场景下表现出色,从文本生成到代码编写,从数学问题到创意写作。

03

MoE技术的优缺点

尽管MoE技术在GPT-4等大型语言模型中表现出色,但它也存在一些挑战:

  1. VRAM需求高:虽然MoE在计算时只激活部分专家,但所有专家都需要加载到内存中,这导致了较高的VRAM需求。

  2. 微调困难:历史上,MoE在微调方面存在困难,容易导致过拟合。虽然近年来在这方面已取得进展,但这仍然是一个需要关注的问题。

  3. 通信开销:在分布式训练中,专家间的通信会增加额外成本,尤其是在大规模模型中。

04

最新进展与未来展望

2024年4月,APUS与新旦智能联合研发的APUS-xDAN大模型4.0(MoE)在GitHub上开源。这是国内首个开源的千亿参数MoE架构大模型,其综合性能达到GPT-4的90%。更令人瞩目的是,该模型能够在低端算力芯片(如4090)上顺畅运行,为AI技术的普及提供了新的可能性。

从1991年的理论提出,到2024年的实际应用,MoE技术的发展历程见证了人工智能领域的重大进步。随着研究的深入和技术的完善,MoE有望在更多领域发挥重要作用,推动人工智能向更高效、更智能的方向发展。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号