问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

微软:LLM在MoE架构的高效训练策略

创作时间:
作者:
@小白创作中心

微软:LLM在MoE架构的高效训练策略

引用
CSDN
1.
https://blog.csdn.net/weixin_46739757/article/details/142630499

微软最新研究提出了一种名为GRIN(GRadient IN formed MoE)的混合专家(MoE)模型训练策略,通过创新的梯度估计方法和模型并行技术,显著提升了LLM的训练效率和性能。

摘要

由于通过专家路由进行稀疏计算,选择性地仅激活一小部分专家模块,混合专家(MoE)模型比密集模型更有效地扩展。然而,稀疏计算挑战了传统的训练实践,因为离散专家路由阻碍了标准的反向传播,从而阻碍了基于梯度的优化,而这是深度学习的基石。

为了更好地追求MoE的缩放能力,研究团队引入了GRIN(GRadient IN形成的MoE训练),它结合了稀疏梯度估计用于专家路由,并配置了模型并行性以避免令牌丢弃。将GRIN应用于自回归语言建模,开发了一个top2 16×3.8B MoE模型。该模型只有6.6B的激活参数,其性能优于7B密集模型,并与在相同数据上训练的14B密集模型的性能相匹配。

对不同任务的广泛评估表明,GRIN具有显著提高MoE疗效的潜力,在MMLU上达到79.4,在HellaSwag上达到83.7,在HumanEval上达到74.4,在MATH上达到58.9。

文章简介

研究问题:在大规模预训练模型中,如何通过混合专家(MoE)模型提高模型可扩展性和训练效率?

主要贡献:论文提出了一种新的MoE模型GRIN,并开发了相应的训练技术,显著提升了模型的训练效率和性能。

重点思路

相关工作

大规模预训练的成功凸显了模型可扩展性的重要性,MoE已成为一种有前途的方法。通过专家路由选择性地仅激活特定输入上的一小部分模块,从而将模型可扩展性提高几个数量级。MoE的稀疏激活机制给模型训练带来了一些挑战,如反向传播不能直接应用于专家路由的梯度计算。

论文方案

  • 模型设计:设计了名为GRIN的MoE模型,通过混合专家架构来提高模型的可扩展性。
  • 梯度估计:提出了SparseMixer-v2方法,通过离散变量采样和Heun’s第三阶方法来估计专家路由的梯度,解决了传统MoE模型中梯度不可微的问题。
  • 模型并行:采用了数据并行、流水线并行和激活检查点技术,避免了专家并行和容量因子使用,提高了训练效率。
  • 实验设计:进行了控制实验和半控制实验,比较了GRIN MoE与传统GShard方法以及不同规模的密集模型在多个任务上的性能。

分析总结

  • SparseMixer-v2在自回归语言模型训练中表现出色,尤其是在训练后期,性能优于传统的GShard方法。
  • GRIN MoE模型在代码和数学任务中表现尤为突出,例如在MMLU、HumanEval、MBPP和MATH任务中取得了优异的成绩。
  • GRIN MoE在训练吞吐量方面也表现出显著的优势,相对于具有相同活动参数的密集模型,训练效率提高了80%以上。
  • 尽管GRIN MoE在自然语言任务上的表现相对较弱,但在推理、编码和数学任务上的表现优于许多开源模型。

个人观点

论文的核心是提出了一种新的梯度估计方法SparseMixer-v2,并结合新的模型并行策略,显著提升了MoE模型的训练效率和性能。


© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号