突破性TPA机制将Transformer内存降低90%,姚期智团队开源新成果
创作时间:
2025-01-21 21:03:52
作者:
@小白创作中心
突破性TPA机制将Transformer内存降低90%,姚期智团队开源新成果
新型注意力机制TPA(Tensor Product Attention)由姚期智院士团队打造,通过动态张量分解技术,实现了在不牺牲性能的前提下,将内存占用降低90%以上。
创新点:动态张量分解与RoPE兼容
现有的注意力机制虽然在众多任务中表现出色,但仍存在计算和内存开销大的问题。DeepSeek-v2提出的MLA方法虽然压缩了KV缓存,但与RoPE位置编码不兼容,每个注意力头需要额外的位置编码参数。
TPA的核心创新在于:
动态张量分解:在注意力计算过程中对QKV做分解,与LoRA系列低秩分解方法相比,TPA将QKV分别构造为与上下文相关的分解张量,实现动态适应。
无缝集成RoPE:TPA可以与流行的RoPE位置编码无缝集成,实现以较低的成本旋转分解KV,无需进行复杂的调整。
实验结果:性能与效率的双重提升
研究团队使用FineWeb-Edu 100B数据集训练模型,实验结果显示,TPA在保持较低困惑度的同时,显著降低了内存占用。在ARC、BoolQ、HellaSwag和MMLU等基准测试中,TPA在大多数任务中都优于或匹配所有基线模型。
开源与合作
基于TPA的新模型T6代码已在GitHub开源。论文发布后,业界反响热烈,有创业者表示这将显著降低云计算成本,研究者则期待看到更大规模模型的实验结果。
论文由清华大学、上海期智研究院、UCLA顾全全团队以及心动网络Taptap等机构合作完成,共同第一作者为清华大学博士生张伊凡与姚班校友、现UCLA博士生刘益枫。
论文地址:https://arxiv.org/abs/2501.06425
开源代码:https://github.com/tensorgi/T6
本文原文来自量子位公众号
热门推荐
标准化处理:多领域关键作用与方法全解析
2024科技展望:AI自主进化与五大领域突破
元旦打卡梅花古诗,感受冬日诗意
小寒赏梅,古诗书法里的冬日浪漫
元旦倒计时:企业如何用新年祝福语打动客户?
元旦祝福语如何塑造企业形象?
如何在小米手机上开启5G?三种方法详解
E-Mark认证新规来了,你准备好了吗?
车辆示廓灯E-mark认证最新指南
重大突破!3D打印骨再生支架为骨质疏松治疗带来新希望
儿童垂体瘤早期症状会天天头痛吗?要做性激素六项检查吗?
透明管理+社会责任+技术创新:阿里华为赢得客户信任之道
韶山自驾游:交通攻略与核心景点全指南
韶山南站到毛泽东故居:最新最实用的三种交通方案
实时监测预警,智慧消防系统提升公共场所安全水平
大连至成都机票700元起,成都冬季旅游正当时
春运机票降价,四川7天6晚旅游套餐低至1000元
【诗词微课堂】第十期:拗救浅述
济宁必打卡:曲阜三孔、尼山圣境、孔子博物馆、水泊梁山、微山湖旅游区
《天赐的声音》爆红歌曲《若月亮没来》,打工人泪目
李现唐嫣央视中秋晚会合唱《若月亮没来》引爆网络,网友:唱出了我们的喜怒哀乐
曹德旺说:“一个不熟的人找你借钱,说明他已经把熟人借遍了”
显微镜优选指南
生物领域一般用哪些显微镜
《Nature》发布2024年度七大科学技术,生命科学和医学领域持续领跑
庆城旅游景点全攻略:六大景点带你领略千年古城魅力
英国传统节日完全指南:从圣诞节到春节
万圣节:一个融合了凯尔特传统与基督教文化的西方节日
Gartner:生成式AI将重构软件工程,催生新型人才需求
AI大模型助力软件开发:从需求分析到运维的全流程智能化