问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

突破性TPA机制将Transformer内存降低90%，姚期智团队开源新成果

创作时间:

2025-01-21 21:03:52

作者:

@小白创作中心

突破性TPA机制将Transformer内存降低90%，姚期智团队开源新成果

新型注意力机制TPA（Tensor Product Attention）由姚期智院士团队打造，通过动态张量分解技术，实现了在不牺牲性能的前提下，将内存占用降低90%以上。

创新点：动态张量分解与RoPE兼容

现有的注意力机制虽然在众多任务中表现出色，但仍存在计算和内存开销大的问题。DeepSeek-v2提出的MLA方法虽然压缩了KV缓存，但与RoPE位置编码不兼容，每个注意力头需要额外的位置编码参数。

TPA的核心创新在于：

动态张量分解：在注意力计算过程中对QKV做分解，与LoRA系列低秩分解方法相比，TPA将QKV分别构造为与上下文相关的分解张量，实现动态适应。
无缝集成RoPE：TPA可以与流行的RoPE位置编码无缝集成，实现以较低的成本旋转分解KV，无需进行复杂的调整。

实验结果：性能与效率的双重提升

研究团队使用FineWeb-Edu 100B数据集训练模型，实验结果显示，TPA在保持较低困惑度的同时，显著降低了内存占用。在ARC、BoolQ、HellaSwag和MMLU等基准测试中，TPA在大多数任务中都优于或匹配所有基线模型。

开源与合作

基于TPA的新模型T6代码已在GitHub开源。论文发布后，业界反响热烈，有创业者表示这将显著降低云计算成本，研究者则期待看到更大规模模型的实验结果。

论文由清华大学、上海期智研究院、UCLA顾全全团队以及心动网络Taptap等机构合作完成，共同第一作者为清华大学博士生张伊凡与姚班校友、现UCLA博士生刘益枫。

论文地址：https://arxiv.org/abs/2501.06425
开源代码：https://github.com/tensorgi/T6

本文原文来自量子位公众号

热门推荐

标准化处理：多领域关键作用与方法全解析

标准化处理：多领域关键作用与方法全解析

2024科技展望：AI自主进化与五大领域突破

2024科技展望：AI自主进化与五大领域突破

元旦打卡梅花古诗，感受冬日诗意

元旦打卡梅花古诗，感受冬日诗意

小寒赏梅，古诗书法里的冬日浪漫

小寒赏梅，古诗书法里的冬日浪漫

元旦倒计时：企业如何用新年祝福语打动客户？

元旦倒计时：企业如何用新年祝福语打动客户？

元旦祝福语如何塑造企业形象？

元旦祝福语如何塑造企业形象？

如何在小米手机上开启5G？三种方法详解

如何在小米手机上开启5G？三种方法详解

E-Mark认证新规来了，你准备好了吗？

E-Mark认证新规来了，你准备好了吗？

车辆示廓灯E-mark认证最新指南

车辆示廓灯E-mark认证最新指南

重大突破！3D打印骨再生支架为骨质疏松治疗带来新希望

重大突破！3D打印骨再生支架为骨质疏松治疗带来新希望

儿童垂体瘤早期症状会天天头痛吗?要做性激素六项检查吗?

儿童垂体瘤早期症状会天天头痛吗?要做性激素六项检查吗?

透明管理+社会责任+技术创新：阿里华为赢得客户信任之道

透明管理+社会责任+技术创新：阿里华为赢得客户信任之道

韶山自驾游：交通攻略与核心景点全指南

韶山自驾游：交通攻略与核心景点全指南

韶山南站到毛泽东故居：最新最实用的三种交通方案

韶山南站到毛泽东故居：最新最实用的三种交通方案

实时监测预警，智慧消防系统提升公共场所安全水平

实时监测预警，智慧消防系统提升公共场所安全水平

大连至成都机票700元起，成都冬季旅游正当时

大连至成都机票700元起，成都冬季旅游正当时

春运机票降价，四川7天6晚旅游套餐低至1000元

春运机票降价，四川7天6晚旅游套餐低至1000元

【诗词微课堂】第十期：拗救浅述

【诗词微课堂】第十期：拗救浅述

济宁必打卡：曲阜三孔、尼山圣境、孔子博物馆、水泊梁山、微山湖旅游区

济宁必打卡：曲阜三孔、尼山圣境、孔子博物馆、水泊梁山、微山湖旅游区

《天赐的声音》爆红歌曲《若月亮没来》，打工人泪目

《天赐的声音》爆红歌曲《若月亮没来》，打工人泪目

李现唐嫣央视中秋晚会合唱《若月亮没来》引爆网络，网友：唱出了我们的喜怒哀乐

李现唐嫣央视中秋晚会合唱《若月亮没来》引爆网络，网友：唱出了我们的喜怒哀乐

曹德旺说：“一个不熟的人找你借钱，说明他已经把熟人借遍了”

曹德旺说：“一个不熟的人找你借钱，说明他已经把熟人借遍了”

显微镜优选指南

显微镜优选指南

生物领域一般用哪些显微镜

生物领域一般用哪些显微镜

《Nature》发布2024年度七大科学技术，生命科学和医学领域持续领跑

《Nature》发布2024年度七大科学技术，生命科学和医学领域持续领跑

庆城旅游景点全攻略：六大景点带你领略千年古城魅力

庆城旅游景点全攻略：六大景点带你领略千年古城魅力

英国传统节日完全指南：从圣诞节到春节

英国传统节日完全指南：从圣诞节到春节

万圣节：一个融合了凯尔特传统与基督教文化的西方节日

万圣节：一个融合了凯尔特传统与基督教文化的西方节日

Gartner：生成式AI将重构软件工程，催生新型人才需求

Gartner：生成式AI将重构软件工程，催生新型人才需求

AI大模型助力软件开发：从需求分析到运维的全流程智能化

AI大模型助力软件开发：从需求分析到运维的全流程智能化

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号