问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

陈丹琦团队提出最新MoE架构Lory

创作时间:

作者:

@小白创作中心

陈丹琦团队提出最新MoE架构Lory

引用

CSDN

1.

https://blog.csdn.net/qq_27590277/article/details/138599934

陈丹琦团队提出了一种名为 Lory 的新型混合专家（Mixture-of-Experts，简称 MoE）模型，专门用于自回归语言模型的预训练。以下是对文章内容的详细解读。

论文：Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training
链接：https://arxiv.org/pdf/2405.03133

摘要 (Abstract)

背景: 传统的 MoE 模型通过稀疏激活来扩大模型规模，但训练过程中路由网络的优化是一个挑战，因为它涉及到不可微分的离散目标。
SMEAR: 之前的研究提出了一种完全可微分的 MoE 架构 SMEAR，它在参数空间中软合并专家，但只在分类任务的微调中展示了有效性。
Lory: 本文提出的 Lory 是首个将此类完全可微分的 MoE 架构扩展到自回归语言模型预训练的方法。Lory 引入了两个关键技术：
1. 因果分段路由策略：在保持语言模型自回归特性的同时，实现了高效的专家合并操作。
2. 基于相似性的数据批处理方法：通过在训练实例中分组相似文档，鼓励专家专门化。

引言 (Introduction)

MoE 架构: 介绍了 MoE 架构及其在模型大小扩展中的作用，同时指出了训练路由网络的挑战。
现有解决方案: 讨论了现有的一些解决方案，如开关路由、top-k 专家选择路由和线性规划等。

预备知识 (Preliminaries)

稀疏激活 MoE: 解释了 Transformer 基础的 MoE 语言模型是如何工作的，以及如何通过路由网络计算路由权重。
通过专家合并的完全可微分 MoE 架构: 讨论了如何通过在参数空间中计算所有专家 FFN 的加权平均值来创建“合并 FFN”，从而实现 MoE 架构的完全可微分性。

Lory 方法

核心技术: Lory 的核心是专家合并，提出了因果分段路由方法和数据批处理策略，以实现高效计算和专家专门化。
符号表示: 文章定义了符号，如输入序列、路由网络、专家 FFN 参数等。
高效专家合并: 通过因果分段路由策略，减少了合并操作的数量，并通过停止梯度操作防止信息泄露。
数据批处理: 通过相似性基础的数据批处理技术，鼓励了专家对不同领域或主题的专门化。

实验 (Experiments)

模型设置: 描述了实验中使用的模型配置，包括不同数量的活跃参数和专家。
训练细节: 包括优化器选择、学习率调度、训练数据集和评估数据集。
主要结果: 展示了 Lory 模型在训练效率、语言建模和下游任务中的性能，并与密集模型进行了比较。

分析和消融研究 (Analysis and Ablation Studies)

因果分段路由的重要性: 通过比较因果分段路由和前缀路由，强调了每个分段提供强训练信号的重要性。
相似性基础数据批处理的重要性: 展示了使用相似性基础批处理方法对 MoE 模型性能提升的影响。
与现有 MoE 模型的比较: 将 Lory 与现有的 Expert Choice (EC) MoE 方法进行了比较。
专家利用和专门化: 分析了专家的利用情况和专门化程度，展示了在不同领域专家的路由权重。

相关工作 (Related Work)

MoE: 讨论了 MoE 模型的发展历程和挑战。
基于相似性的数据批处理: 提到了其他研究中使用类似数据批处理方法的工作。

结论 (Conclusion)

Lory 的贡献: 强调了 Lory 在自回归语言模型预训练中的潜力和优势。
未来工作: 提出了进一步扩展 Lory、结合不同级别的路由策略和开发高效解码方法的未来研究方向。

伦理声明 (Ethics Statement)

社会影响: 讨论了使用 Lory 方法训练的语言模型可能带来的潜在社会影响，包括错误信息的传播风险和隐私问题。

附录 (Appendix)

伪代码: 提供了因果分段路由策略的伪代码。
计算开销: 分析了 MoE 层与密集层相比的计算开销。
数据批处理细节: 描述了相似性基础数据批处理的具体实现方法。
模型配置: 列出了实验中使用的模型架构和大小。
7B 模型实验: 提供了 7B 模型的实验设置和结果。
专家专门化: 展示了 0.3B/8E 模型在不同领域上的专家路由权重。

文章通过实验验证了 Lory 模型在自回归语言模型预训练中的有效性，并展示了其在多个下游任务中的性能提升。此外，文章还探讨了专家的利用和专门化，以及如何通过不同的训练和推理策略进一步提高模型性能。最后，作者提出了未来工作的方向，并就使用 Lory 方法可能带来的伦理问题进行了讨论。

本文主要来自kimi解读，具体了解请阅读原论文。

热门推荐

家居墙面涂刷的方法有哪些？怎样选择合适的墙面涂刷材料？

家居墙面涂刷的方法有哪些？怎样选择合适的墙面涂刷材料？

秋季换季护肤注意事项,预防皮肤过敏的方法

秋季换季护肤注意事项,预防皮肤过敏的方法

成本报表工具如何帮助分析不同部门对总体成本的贡献？

成本报表工具如何帮助分析不同部门对总体成本的贡献？

新注意力让大模型上下文内存占用砍半！精度不减还能加速2倍

新注意力让大模型上下文内存占用砍半！精度不减还能加速2倍

我国大陆第一座核电站开建40周年核电事业实现跨越发展

我国大陆第一座核电站开建40周年核电事业实现跨越发展

美容仪“生死大考”，“跳水价”敢不敢买？

美容仪“生死大考”，“跳水价”敢不敢买？

沙丁胺醇+异丙托溴铵+布地奈德：三药联合雾化紧急平喘

沙丁胺醇+异丙托溴铵+布地奈德：三药联合雾化紧急平喘

迈克尔·杰克逊被问：为何不去中国开演唱会？他的回答让国人敬佩

迈克尔·杰克逊被问：为何不去中国开演唱会？他的回答让国人敬佩

车辆年检状态不迷路：流程、注意事项一网打尽，告别繁琐

车辆年检状态不迷路：流程、注意事项一网打尽，告别繁琐

身上莫名出现「淤青」是怎么回事？

身上莫名出现「淤青」是怎么回事？

乙巳年丁酉日柱几月生好：运势分析与生活建议

乙巳年丁酉日柱几月生好：运势分析与生活建议

余切函数在教育中的应用：从三角学到微积分的教学实践

余切函数在教育中的应用：从三角学到微积分的教学实践

二维码无法使用？这些原因和解决方案帮你轻松应对

二维码无法使用？这些原因和解决方案帮你轻松应对

科学家揭示硒蛋白在健康衰老中的关键作用

科学家揭示硒蛋白在健康衰老中的关键作用

燕窝跟阿胶哪个好：体寒者食用选择与功效区别比较

燕窝跟阿胶哪个好：体寒者食用选择与功效区别比较

健康沙拉新享受（以玉米生菜蔬菜沙拉为例，从制作到食用全解析）

健康沙拉新享受（以玉米生菜蔬菜沙拉为例，从制作到食用全解析）

高净值理财产品的投资策略是什么？这种投资策略的风险如何控制？

高净值理财产品的投资策略是什么？这种投资策略的风险如何控制？

金鱼吊兰的盆栽技巧：从选盆到养护的全方位指南

金鱼吊兰的盆栽技巧：从选盆到养护的全方位指南

汽车防火墙隔音的效果如何？

汽车防火墙隔音的效果如何？

如何掌握项目管理知识体系？全面指南助你成为项目管理专家！

如何掌握项目管理知识体系？全面指南助你成为项目管理专家！

曹操在史学界形象的演变：才华横溢

曹操在史学界形象的演变：才华横溢

电视剧里经常出现的“未央”，到底什么意思？很多人不懂

电视剧里经常出现的“未央”，到底什么意思？很多人不懂

SPSS置信区间上限和下限解释 SPSS置信区间结果解读

SPSS置信区间上限和下限解释 SPSS置信区间结果解读

健康体检新标准：甲状腺功能检查纳入必选项目

健康体检新标准：甲状腺功能检查纳入必选项目

吃什么能预防牙龈萎缩的方法

吃什么能预防牙龈萎缩的方法

肋骨神经炎的成因与预防

肋骨神经炎的成因与预防

波浪理论在金融市场中的应用有哪些？这种应用如何帮助投资者了解市场趋势？

波浪理论在金融市场中的应用有哪些？这种应用如何帮助投资者了解市场趋势？

创办出海创意公司为深圳打CALL 圆自己的创业梦外国小伙用创意让深圳产品卖全球

创办出海创意公司为深圳打CALL 圆自己的创业梦外国小伙用创意让深圳产品卖全球

封闭式问题 VS 开放性问题：我该如何选择和应用？（上篇）

封闭式问题 VS 开放性问题：我该如何选择和应用？（上篇）

伺服电机：从入门到精通——基础原理与故障排查指南

伺服电机：从入门到精通——基础原理与故障排查指南

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号