问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

微软：LLM在MoE架构的高效训练策略

创作时间:

作者:

@小白创作中心

微软：LLM在MoE架构的高效训练策略

引用

CSDN

1.

https://blog.csdn.net/weixin_46739757/article/details/142630499

微软最新研究提出了一种名为GRIN（GRadient IN formed MoE）的混合专家（MoE）模型训练策略，通过创新的梯度估计方法和模型并行技术，显著提升了LLM的训练效率和性能。

摘要

由于通过专家路由进行稀疏计算，选择性地仅激活一小部分专家模块，混合专家（MoE）模型比密集模型更有效地扩展。然而，稀疏计算挑战了传统的训练实践，因为离散专家路由阻碍了标准的反向传播，从而阻碍了基于梯度的优化，而这是深度学习的基石。

为了更好地追求MoE的缩放能力，研究团队引入了GRIN（GRadient IN形成的MoE训练），它结合了稀疏梯度估计用于专家路由，并配置了模型并行性以避免令牌丢弃。将GRIN应用于自回归语言建模，开发了一个top2 16×3.8B MoE模型。该模型只有6.6B的激活参数，其性能优于7B密集模型，并与在相同数据上训练的14B密集模型的性能相匹配。

对不同任务的广泛评估表明，GRIN具有显著提高MoE疗效的潜力，在MMLU上达到79.4，在HellaSwag上达到83.7，在HumanEval上达到74.4，在MATH上达到58.9。

文章简介

研究问题：在大规模预训练模型中，如何通过混合专家（MoE）模型提高模型可扩展性和训练效率？

主要贡献：论文提出了一种新的MoE模型GRIN，并开发了相应的训练技术，显著提升了模型的训练效率和性能。

重点思路

相关工作

大规模预训练的成功凸显了模型可扩展性的重要性，MoE已成为一种有前途的方法。通过专家路由选择性地仅激活特定输入上的一小部分模块，从而将模型可扩展性提高几个数量级。MoE的稀疏激活机制给模型训练带来了一些挑战，如反向传播不能直接应用于专家路由的梯度计算。

论文方案

模型设计：设计了名为GRIN的MoE模型，通过混合专家架构来提高模型的可扩展性。
梯度估计：提出了SparseMixer-v2方法，通过离散变量采样和Heun’s第三阶方法来估计专家路由的梯度，解决了传统MoE模型中梯度不可微的问题。
模型并行：采用了数据并行、流水线并行和激活检查点技术，避免了专家并行和容量因子使用，提高了训练效率。
实验设计：进行了控制实验和半控制实验，比较了GRIN MoE与传统GShard方法以及不同规模的密集模型在多个任务上的性能。

分析总结

SparseMixer-v2在自回归语言模型训练中表现出色，尤其是在训练后期，性能优于传统的GShard方法。
GRIN MoE模型在代码和数学任务中表现尤为突出，例如在MMLU、HumanEval、MBPP和MATH任务中取得了优异的成绩。
GRIN MoE在训练吞吐量方面也表现出显著的优势，相对于具有相同活动参数的密集模型，训练效率提高了80%以上。
尽管GRIN MoE在自然语言任务上的表现相对较弱，但在推理、编码和数学任务上的表现优于许多开源模型。

个人观点

论文的核心是提出了一种新的梯度估计方法SparseMixer-v2，并结合新的模型并行策略，显著提升了MoE模型的训练效率和性能。

热门推荐

惊人的宇宙法则：所有发生，都不是偶然

惊人的宇宙法则：所有发生，都不是偶然

犬咬伤后的正确处理方法

犬咬伤后的正确处理方法

二极管特性介绍

二极管特性介绍

大模型高效微调详解-从Adpter、PrefixTuning到LoRA

大模型高效微调详解-从Adpter、PrefixTuning到LoRA

公司债权债务人之间的关系与法律问题

公司债权债务人之间的关系与法律问题

表明儿童生病的症状有哪些

表明儿童生病的症状有哪些

麦冬：从<山海经>走来的养生植物

麦冬：从<山海经>走来的养生植物

海思麒麟990与骁龙处理器深度对比：性能优劣全解析

海思麒麟990与骁龙处理器深度对比：性能优劣全解析

拇指外翻竟然和扁平足有关？物理治疗师分享4招改善拇趾外翻及扁平足困扰

拇指外翻竟然和扁平足有关？物理治疗师分享4招改善拇趾外翻及扁平足困扰

绿袍散VS西瓜霜：口腔溃疡选哪个？

绿袍散VS西瓜霜：口腔溃疡选哪个？

简单有效的显卡驱动更新指南，助你畅享游戏与图形处理体验

简单有效的显卡驱动更新指南，助你畅享游戏与图形处理体验

番茄牛腩的食材挑选

番茄牛腩的食材挑选

奔驰锁问题全解析：四大常见原因及解决方案

奔驰锁问题全解析：四大常见原因及解决方案

芦笋与竹笋，探寻两大蔬菜瑰宝的美食之旅

芦笋与竹笋，探寻两大蔬菜瑰宝的美食之旅

瓜子需要密封保存吗

瓜子需要密封保存吗

燃爆了！《哪吒2》这些海报，是云南的他画的

燃爆了！《哪吒2》这些海报，是云南的他画的

替罗非班应用及安全性

替罗非班应用及安全性

SQLite数据库中如何建立数据表

SQLite数据库中如何建立数据表

拟态章鱼常常模仿哪三种动物？

拟态章鱼常常模仿哪三种动物？

艺术涂料会不会出现起皮、开裂、脱落等现象？

艺术涂料会不会出现起皮、开裂、脱落等现象？

罗非鱼的营养价值如何？

罗非鱼的营养价值如何？

负债为负数是什么意思

负债为负数是什么意思

红茶是属于黑茶吗？详细解读红茶和黑茶的区别及制作工艺

红茶是属于黑茶吗？详细解读红茶和黑茶的区别及制作工艺

一个病人同时开了2种胰岛素，是医生乱开处方？还是另有深意

一个病人同时开了2种胰岛素，是医生乱开处方？还是另有深意

2025负债人有多少人会影响经济状况

2025负债人有多少人会影响经济状况

重塑机场体验：打造人文空间与文化IP

重塑机场体验：打造人文空间与文化IP

加工中心编程软件大盘点：七大主流软件功能与特点详解

加工中心编程软件大盘点：七大主流软件功能与特点详解

办理了结婚登记并共同生活，还能要求对方返还彩礼吗？

办理了结婚登记并共同生活，还能要求对方返还彩礼吗？

借钱20万凑彩礼，离婚后要求女方退还，法院这样判

借钱20万凑彩礼，离婚后要求女方退还，法院这样判

土豆生长期多少天收获

土豆生长期多少天收获

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号