问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Mamba真比Transformer更优吗？最新研究揭示混合架构才是最优解

创作时间:

作者:

@小白创作中心

Mamba真比Transformer更优吗？最新研究揭示混合架构才是最优解

引用

澎湃

1.

https://m.thepaper.cn/newsDetail_forward_28061205

Mamba模型自推出以来就因其独特架构和潜在优势引起了广泛关注。最近，来自英伟达、CMU、普林斯顿等机构的研究团队对Mamba和Transformer进行了全面对比研究，发现两者各有优劣。研究还提出了一种混合架构Mamba-2-Hybrid，结合了两者的优点，展现了更好的性能。

去年12月，CMU和普林斯顿的两位华人学者提出了Mamba模型，该模型完全抛弃了传统的注意力机制和MLP模块，采用状态空间模型（SSM）架构。Mamba模型具有上下文长度线性缩放、推理速度快等优点，一度被视为Transformer的潜在替代者。

然而，研究团队在后续研究中发现，虽然Mamba模型在某些任务上表现出色，但在长上下文任务和信息检索方面存在局限性。因此，他们提出了Mamba-2-Hybrid混合架构，将SSM和注意力机制相结合，以期发挥两者的优势。

实验设置

研究团队训练了四种不同架构的8B参数模型：Mamba、Mamba-2、Mamba-2-Hybrid和Transformer。训练数据集包括1.1T和3.5T两个规模，均由70%英语、15%非英语和15%代码组成。实验涵盖了35个NLP下游任务，分为三类：

标准短上下文任务（12个）
自然长上下文任务（9个）
综合长上下文任务（14个）

实验结果

Mamba vs. Transformer

在大多数标准任务上，Mamba和Mamba-2的性能可以与Transformer媲美，但在MMLU基准测试中存在显著差距。具体来说：

在1.1T数据集上，Mamba-2在零样本和少样本学习中分别落后Transformer 10分和17分。
增加训练数据到3.5T后，Mamba-2在MMLU任务上的5-shot分数差距缩小到1.37分。

Mamba在特定任务上的表现

研究团队对MMLU和"电话簿"任务进行了深入分析：

MMLU：Mamba在选择题模式下表现较差，但在填空题模式中反而优于Transformer。这表明Mamba可能在上下文学习和信息路由方面存在局限性。
电话簿任务：Mamba在处理长上下文信息时表现不佳，尤其是在需要精确复制信息的场景中。

混合架构Mamba-2-Hybrid

为了解决Mamba的局限性，研究团队提出了Mamba-2-Hybrid架构，该架构包含：

24个Mamba-2层
4个自注意力层
28个MLP层

实验结果显示：

在5-shot MMLU测评中，Mamba-2-Hybrid超越了纯Transformer和纯SSM模型。
在长上下文任务中，Mamba-2-Hybrid的token生成速度比Transformer快8倍。
在"电话簿"任务中，Mamba-2-Hybrid在4K预训练长度内可达到100%准确率，并能泛化到5.5K token长度。

结论

研究结果表明，Mamba和Transformer各有优劣，单纯追求替代关系可能不是最佳选择。将两者优点结合的混合架构Mamba-2-Hybrid展现了更好的性能和效率，为未来模型设计提供了新的思路。

参考资料

热门推荐

“隐患排查”和“安全检查”有什么区别？

“隐患排查”和“安全检查”有什么区别？

秋叶PPT推荐：微信高效搜索技巧

秋叶PPT推荐：微信高效搜索技巧

王荣教你如何让10个月宝宝睡个好觉？

王荣教你如何让10个月宝宝睡个好觉？

山乌龟根块怎么养护？抓住9个核心，一个月爬满墙！

山乌龟根块怎么养护？抓住9个核心，一个月爬满墙！

马克·瑞比托推荐：杠铃训练减肥法

马克·瑞比托推荐：杠铃训练减肥法

如何在跨境电商中充分利用数字化工具提升效率

如何在跨境电商中充分利用数字化工具提升效率

基建行业数字化转型的六大关键步骤

基建行业数字化转型的六大关键步骤

笑话背后的哲理：用幽默解读人生

笑话背后的哲理：用幽默解读人生

AI大模型训练相关参数如何估算？有这一篇就够了

AI大模型训练相关参数如何估算？有这一篇就够了

八字解析中的婚姻预测技巧如何利用八字提高婚姻幸福感

八字解析中的婚姻预测技巧如何利用八字提高婚姻幸福感

数据揭秘：园艺活动如何提升生活质量

数据揭秘：园艺活动如何提升生活质量

起名好方法：声母、韵母和音调组合和谐

起名好方法：声母、韵母和音调组合和谐

中国传统工笔画白描艺术的传承与发展探析

中国传统工笔画白描艺术的传承与发展探析

看完罗翔推荐的《黑羊》我沉默了：富人该富，穷人该穷，而诚实的人该死

看完罗翔推荐的《黑羊》我沉默了：富人该富，穷人该穷，而诚实的人该死

热播剧里的优雅回怼，你学会了吗？

热播剧里的优雅回怼，你学会了吗？

掌握职场生存规则：用心理学技巧化解冲突

掌握职场生存规则：用心理学技巧化解冲突

Spring Bean生命周期管理技术详解：面试必考！

Spring Bean生命周期管理技术详解：面试必考！

微信小程序助力高考报名：让数字化转型更便捷

微信小程序助力高考报名：让数字化转型更便捷

未来五年薪酬增长潜力岗位全解析：哪些行业将领跑？

未来五年薪酬增长潜力岗位全解析：哪些行业将领跑？

日本甲流病例减少但乙流抬头，游客就医仍存困难

日本甲流病例减少但乙流抬头，游客就医仍存困难

2024年高考报名全流程攻略：从准备到确认，手把手教你顺利完成

2024年高考报名全流程攻略：从准备到确认，手把手教你顺利完成

后端方案设计文档结构模板可参考

后端方案设计文档结构模板可参考

大衰退留下的"伤疤"：新进入劳动力市场的年轻人面临长期就业困境

大衰退留下的"伤疤"：新进入劳动力市场的年轻人面临长期就业困境

Fluent UDF：解锁复杂流动现象的新世界

Fluent UDF：解锁复杂流动现象的新世界

钱学森与中国导弹技术的发展之路

钱学森与中国导弹技术的发展之路

科研论文引用规范详解：避免引用不当引发的学术风险

科研论文引用规范详解：避免引用不当引发的学术风险

什么是私域流量？如何做好私域营销？

什么是私域流量？如何做好私域营销？

10-15个月宝宝并觉期睡眠全攻略：从识别到应对

10-15个月宝宝并觉期睡眠全攻略：从识别到应对

忻州古城：最地道的年味在这里！

忻州古城：最地道的年味在这里！

发动机设计新突破：流固耦合仿真大显身手

发动机设计新突破：流固耦合仿真大显身手

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号