突破性TPA机制将Transformer内存降低90%,姚期智团队开源新成果
创作时间:
2025-01-21 21:03:52
作者:
@小白创作中心
突破性TPA机制将Transformer内存降低90%,姚期智团队开源新成果
新型注意力机制TPA(Tensor Product Attention)由姚期智院士团队打造,通过动态张量分解技术,实现了在不牺牲性能的前提下,将内存占用降低90%以上。
创新点:动态张量分解与RoPE兼容
现有的注意力机制虽然在众多任务中表现出色,但仍存在计算和内存开销大的问题。DeepSeek-v2提出的MLA方法虽然压缩了KV缓存,但与RoPE位置编码不兼容,每个注意力头需要额外的位置编码参数。
TPA的核心创新在于:
动态张量分解:在注意力计算过程中对QKV做分解,与LoRA系列低秩分解方法相比,TPA将QKV分别构造为与上下文相关的分解张量,实现动态适应。
无缝集成RoPE:TPA可以与流行的RoPE位置编码无缝集成,实现以较低的成本旋转分解KV,无需进行复杂的调整。
实验结果:性能与效率的双重提升
研究团队使用FineWeb-Edu 100B数据集训练模型,实验结果显示,TPA在保持较低困惑度的同时,显著降低了内存占用。在ARC、BoolQ、HellaSwag和MMLU等基准测试中,TPA在大多数任务中都优于或匹配所有基线模型。
开源与合作
基于TPA的新模型T6代码已在GitHub开源。论文发布后,业界反响热烈,有创业者表示这将显著降低云计算成本,研究者则期待看到更大规模模型的实验结果。
论文由清华大学、上海期智研究院、UCLA顾全全团队以及心动网络Taptap等机构合作完成,共同第一作者为清华大学博士生张伊凡与姚班校友、现UCLA博士生刘益枫。
论文地址:https://arxiv.org/abs/2501.06425
开源代码:https://github.com/tensorgi/T6
本文原文来自量子位公众号
热门推荐
三亚5A级景区全攻略:从海滨到雨林,总有一款打动你
三亚5A级景区全攻略:蜈支洲岛、南山、天涯海角必打卡
影响全球1/5人口!JAMA:过敏性鼻炎总不好?关注3大治疗策略
春季花粉过敏 中医治疗有妙招
宋江服役期间参演公益宣传片,温暖形象引发全网热议
宋江起义真相:从数百人到“八百里水泊”的文学想象
新疆羽丰鸽业:科学养殖让小鸽子变成“金鸽子”
乳鸽养殖环境管理:从温度到湿度的全方位指南
宁德时代高镍811电池:电动自行车续航新突破
冬季电动自行车续航指南:从电池选择到使用技巧全解析
电动自行车新国标:续航升级+北斗定位,智能出行新时代
南昌春节禁燃禁放:环保与传统的平衡之道
南昌市生态环境保护委员会办公室:禁燃禁放倡议书
耐热复配酶在再造烟叶生产过程中的优化研究
无氧训练全攻略:增肌背后的科学原理
治疗过敏性紫癜看过来!2024过敏性紫癜规范化诊疗全攻略
药物过敏:原因与应对
营养师推荐:健康饮食+运动减肥法
波城与巴斯蒂亚的激烈对决:历史交锋与近期状态分析
减肥路上的心理小妙招:坚持不难!
国家卫健委提醒:GLP-1减肥药反弹风险大揭秘
伦敦桥下的英语发音大作战:让家庭互动成为学习的桥梁
掌握发音艺术,让表达更自信
赵丽蓉春晚经典:《打工奇遇》背后的故事
赵丽蓉巩汉林金珠《打工奇遇》:一部经典小品的诞生与影响
赵丽蓉、巩汉林再聚首:《打工奇遇》背后的故事
适合50岁女性的DASH饮食指南
淞沪会战第一阶段:血与火的正面交锋
伟大悲壮的8.13淞沪会战
盘庚迁殷:商朝末期的历史转折