Mamba真比Transformer更优吗?最新研究揭示混合架构才是最优解
创作时间:
作者:
@小白创作中心
Mamba真比Transformer更优吗?最新研究揭示混合架构才是最优解
引用
澎湃
1.
https://m.thepaper.cn/newsDetail_forward_28061205
Mamba模型自推出以来就因其独特架构和潜在优势引起了广泛关注。最近,来自英伟达、CMU、普林斯顿等机构的研究团队对Mamba和Transformer进行了全面对比研究,发现两者各有优劣。研究还提出了一种混合架构Mamba-2-Hybrid,结合了两者的优点,展现了更好的性能。
去年12月,CMU和普林斯顿的两位华人学者提出了Mamba模型,该模型完全抛弃了传统的注意力机制和MLP模块,采用状态空间模型(SSM)架构。Mamba模型具有上下文长度线性缩放、推理速度快等优点,一度被视为Transformer的潜在替代者。
然而,研究团队在后续研究中发现,虽然Mamba模型在某些任务上表现出色,但在长上下文任务和信息检索方面存在局限性。因此,他们提出了Mamba-2-Hybrid混合架构,将SSM和注意力机制相结合,以期发挥两者的优势。
实验设置
研究团队训练了四种不同架构的8B参数模型:Mamba、Mamba-2、Mamba-2-Hybrid和Transformer。训练数据集包括1.1T和3.5T两个规模,均由70%英语、15%非英语和15%代码组成。实验涵盖了35个NLP下游任务,分为三类:
- 标准短上下文任务(12个)
- 自然长上下文任务(9个)
- 综合长上下文任务(14个)
实验结果
Mamba vs. Transformer
在大多数标准任务上,Mamba和Mamba-2的性能可以与Transformer媲美,但在MMLU基准测试中存在显著差距。具体来说:
- 在1.1T数据集上,Mamba-2在零样本和少样本学习中分别落后Transformer 10分和17分。
- 增加训练数据到3.5T后,Mamba-2在MMLU任务上的5-shot分数差距缩小到1.37分。
Mamba在特定任务上的表现
研究团队对MMLU和"电话簿"任务进行了深入分析:
- MMLU:Mamba在选择题模式下表现较差,但在填空题模式中反而优于Transformer。这表明Mamba可能在上下文学习和信息路由方面存在局限性。
- 电话簿任务:Mamba在处理长上下文信息时表现不佳,尤其是在需要精确复制信息的场景中。
混合架构Mamba-2-Hybrid
为了解决Mamba的局限性,研究团队提出了Mamba-2-Hybrid架构,该架构包含:
- 24个Mamba-2层
- 4个自注意力层
- 28个MLP层
实验结果显示:
- 在5-shot MMLU测评中,Mamba-2-Hybrid超越了纯Transformer和纯SSM模型。
- 在长上下文任务中,Mamba-2-Hybrid的token生成速度比Transformer快8倍。
- 在"电话簿"任务中,Mamba-2-Hybrid在4K预训练长度内可达到100%准确率,并能泛化到5.5K token长度。
结论
研究结果表明,Mamba和Transformer各有优劣,单纯追求替代关系可能不是最佳选择。将两者优点结合的混合架构Mamba-2-Hybrid展现了更好的性能和效率,为未来模型设计提供了新的思路。
参考资料
热门推荐
杭州人玩了n次西湖|告诉你一日游该怎么玩
坐飞机、高铁和汽车,可以带几瓶酒?
一文读懂:如何选择最适合自己的瑜伽垫厚度
如何规划别墅庭院前院、后院与侧庭的设计要点才能最大化利用空间?
中介直呼太“卷” A股上市公司扎堆赴港IPO
买了办公软件的怎么恢复
重装系统不丢失数据:保留重要软件与文件的技巧
保护历史建筑的重要性
做好房屋体检 确保居住安全
"一日不见,如隔三秋":古人如何用"三秋"表达思念?
偏铝酸根如何变成四羟基合铝酸根
父母与孩子的八字:五行、十神与天干地支的奥秘
胰岛素抵抗,是不良生活方式敲响的警钟
激活胰岛素的科学方法
拥抱时女性身体会发生什么?科学研究揭示拥抱带来的奇妙变化
大众跑者,这4个“最佳”的跑步时间,你都跑对了吗
股票虚拟盘是什么:虚拟盘在股票模拟交易中的应用
领结婚证需要什么材料:结婚登记所需材料及流程详解
岭南建筑的现代化呈现:蓝舍艺术空间 / ADARC思为建筑
春分时节养生指南:推荐两款药膳,助力健康度春
靖康之变:北宋的悲剧与耻辱
经常梦见去世的爸爸是什么原因
微型二维码揭示蜜蜂旅程中的秘密
PCA降维算法原理与实现
拖欠员工工资表统计表需要包含哪些信息?
新石器时代手游:宠物养成进阶攻略
鼻涕倒流是什么原因
全国首套!《学龄前儿童主动眼保健操》正式发布
花椒树冬天落叶吗?带你了解花椒树的落叶特性
关于乔治城大学的10个秘密