资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

清华团队突破性优化：4090单卡即可运行DeepSeek-R1模型

创作时间:

作者:

@小白创作中心

清华团队突破性优化：4090单卡即可运行DeepSeek-R1模型

引用

来源

https://www.doit.com.cn/p/528424.html

近日，清华大学KVCache.AI团队与趋境科技合作开发的KTransformers项目取得重要突破，成功支持在英伟达RTX 4090D显卡上运行DeepSeek-R1模型。这一成果不仅降低了大语言模型的部署门槛，也为AI技术的普及应用开辟了新的可能性。

KTransformers项目的技术优势

KTransformers是一个创新的混合推理项目，能够利用CPU和GPU进行协同计算，通过将部分计算任务卸载到CPU内存，有效减少了昂贵显存的占用。该项目支持多种硬件设备和常见大语言模型，显著降低了大语言模型的部署成本。

类似地，llama.cpp也支持CPU+GPU混合推理模式，当模型规模超过显存容量时，可以同时利用CPU和GPU进行加速计算。

技术突破与性能优化

趋境科技Approaching.AI在业界首创"以存换算"全系统推理架构，能够协同HBM、DRAM、SSD和CPU、GPU、NPU等异构设备，突破显存容量限制，释放全系统的存储和计算能力。

2024年8月，KTransformers团队宣布使用21GB显存和136GB内存配置的电脑成功推理236B DeepSeek-Coder-V2模型。在BigCodeBench测试中，该模型的表现甚至优于GPT4-0613。

2025年2月10日，KTransformers发布V0.3预览版，支持使用单个或多个带有24GB显存的显卡，配合382GB DRAM设备，实现满血版DeepSeek-R1和V3的推理。相比llama.cpp，性能提升可达3~28倍。

V0.3预览版引入了Intel AMX加速内核和专家选择性激活方法，以及FP4量化技术。在14GB显存和382GB DRAM配置下，671B满血版DeepSeek-Coder-V3/R1的预填充速度提升27.79倍，输出文本速度提升最多3.03倍。

未来展望

目前，项目的主要瓶颈在于CPU计算速度和内存带宽。随着新一代至强处理器的推出，内存能力大幅提升，有望进一步优化性能。此外，KTransformers未来还可以考虑升级到英伟达RTX 5090D，其32GB GDDR7显存将提供更强的硬件支持。

值得关注的是，KTransformers在多卡推理方面的潜力。通过使用多块低显存显卡（如8G、12G或16G）进行推理，可能构建出比单个4090或5090更经济的解决方案。

热门推荐

飞机提早多久到机场？揭秘那些让你不再为时间焦虑的秘密，助你轻松应对每一次飞行

向雷锋同志学习：让精神火种照亮时代征途

2025年考研报名人数大幅下降：背后原因及影响解析

零售舆情：舆论如何看待卫生巾长度虚标争议

民事欺诈行为探究：识别、预防和应对

曼联困境剖析丨阿莫林的球队本赛季还有救吗？

从荒地到生态绿洲：东莞国家城市湿地公园绿美蜕变之路

为什么开机时会出现explorer.exe空白警告窗口

镇海炼化：打造“世界级、高科技、一体化”绿色石化基地

在家锻炼身体最好的运动方式

易混淆亲缘关系统计量（血缘系数、亲缘系数、近交系数）介绍

“一条鞭法”的主要内容是什么？具体实施过程又是怎样的？

中医止咳的穴位有哪些

西安亲子游玩的好去处有哪些？西安的亲子乐园推荐

核聚变100问(29)：能否利用核反应实现“点石成金”？

咬一口兔娘：从萌系coser到独立艺术家的转型之路

第一次世界大战末尾，德国公海舰队是如何覆灭的？

高速公路广告牌归哪个部门管？

短视频策划如何实现内容高效传播？

油橄榄素：橄榄油中著名的苯酚的健康益处背后

肩峰撞击综合征怎么检查

如何用Arduino制作一个简易自动喂鱼器

银行储蓄产品的复利计算方式详解

痤疮化脓了该不该排脓

人生短短几个秋，何不“生而热忱，终也欢洽”？