Mamba真比Transformer更优吗?最新研究揭示混合架构才是最优解
创作时间:
作者:
@小白创作中心
Mamba真比Transformer更优吗?最新研究揭示混合架构才是最优解
引用
澎湃
1.
https://m.thepaper.cn/newsDetail_forward_28061205
Mamba模型自推出以来就因其独特架构和潜在优势引起了广泛关注。最近,来自英伟达、CMU、普林斯顿等机构的研究团队对Mamba和Transformer进行了全面对比研究,发现两者各有优劣。研究还提出了一种混合架构Mamba-2-Hybrid,结合了两者的优点,展现了更好的性能。
去年12月,CMU和普林斯顿的两位华人学者提出了Mamba模型,该模型完全抛弃了传统的注意力机制和MLP模块,采用状态空间模型(SSM)架构。Mamba模型具有上下文长度线性缩放、推理速度快等优点,一度被视为Transformer的潜在替代者。
然而,研究团队在后续研究中发现,虽然Mamba模型在某些任务上表现出色,但在长上下文任务和信息检索方面存在局限性。因此,他们提出了Mamba-2-Hybrid混合架构,将SSM和注意力机制相结合,以期发挥两者的优势。
实验设置
研究团队训练了四种不同架构的8B参数模型:Mamba、Mamba-2、Mamba-2-Hybrid和Transformer。训练数据集包括1.1T和3.5T两个规模,均由70%英语、15%非英语和15%代码组成。实验涵盖了35个NLP下游任务,分为三类:
- 标准短上下文任务(12个)
- 自然长上下文任务(9个)
- 综合长上下文任务(14个)
实验结果
Mamba vs. Transformer
在大多数标准任务上,Mamba和Mamba-2的性能可以与Transformer媲美,但在MMLU基准测试中存在显著差距。具体来说:
- 在1.1T数据集上,Mamba-2在零样本和少样本学习中分别落后Transformer 10分和17分。
- 增加训练数据到3.5T后,Mamba-2在MMLU任务上的5-shot分数差距缩小到1.37分。
Mamba在特定任务上的表现
研究团队对MMLU和"电话簿"任务进行了深入分析:
- MMLU:Mamba在选择题模式下表现较差,但在填空题模式中反而优于Transformer。这表明Mamba可能在上下文学习和信息路由方面存在局限性。
- 电话簿任务:Mamba在处理长上下文信息时表现不佳,尤其是在需要精确复制信息的场景中。
混合架构Mamba-2-Hybrid
为了解决Mamba的局限性,研究团队提出了Mamba-2-Hybrid架构,该架构包含:
- 24个Mamba-2层
- 4个自注意力层
- 28个MLP层
实验结果显示:
- 在5-shot MMLU测评中,Mamba-2-Hybrid超越了纯Transformer和纯SSM模型。
- 在长上下文任务中,Mamba-2-Hybrid的token生成速度比Transformer快8倍。
- 在"电话簿"任务中,Mamba-2-Hybrid在4K预训练长度内可达到100%准确率,并能泛化到5.5K token长度。
结论
研究结果表明,Mamba和Transformer各有优劣,单纯追求替代关系可能不是最佳选择。将两者优点结合的混合架构Mamba-2-Hybrid展现了更好的性能和效率,为未来模型设计提供了新的思路。
参考资料
热门推荐
养鹅1000只利润和成本需要多大场地
智慧育种破解鹅业高歌密码
养鹅产业发展现状与高质量发展路径
现代舞蹈的艺术审美特征
秋天去恩施清江画廊自由行
漳州十大特产

【摄影教程】如何把天鹅拍得更美?
鹅鸭杀地形杀攻略:五张地图详细技巧分享
关于天鹅的10个有趣冷知识,你知道几个?
荔浦芋头的美味变身!这样做,比饭店还好吃!
头疗,让你秒变“佛系青年”
芋头红烧肉
头疗真的能拯救你的亚健康?
双十一头疗大促:给自己一个从“头”开始的改变
中医专家推荐:头疗的神奇养生效果
掌握安全驾驶技巧,享受开车乐趣与责任并重的生活方式
超速行驶的后果有哪些?如何避免超速带来的安全隐患?
智能家居黑科技:娇娇带你玩转AI生活
呼伦贝尔农垦集团:草原管理与畜牧业发展的双赢典范
黄山老师的太极拳教学理念研究:太极即阴阳,形随理生
TNC草原火管理,守护绿色家园
TNC创新实践:如何防止草原退化
TNC在坦桑尼亚的草原管理奇迹:社区参与实现生态与经济双赢
胃热吃什么食物和水果
阿那亚冬日游:打卡礼堂与图书馆,边玩边吃海鲜大餐
蔡文静演绎许雯雯:从记者到自媒体人的转型之路
土豆烧牛肉
呀土豆:平凡中的非凡,味蕾上的传奇
老舍笔下的骆驼祥子,竟是这样的人物原型?
四川省大竹县:多批次自制馒头检出违规添加剂,甜蜜素和糖精钠超标