问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

清华团队突破性优化:4090单卡即可运行DeepSeek-R1模型

创作时间:
作者:
@小白创作中心

清华团队突破性优化:4090单卡即可运行DeepSeek-R1模型

引用
1
来源
1.
https://www.doit.com.cn/p/528424.html

近日,清华大学KVCache.AI团队与趋境科技合作开发的KTransformers项目取得重要突破,成功支持在英伟达RTX 4090D显卡上运行DeepSeek-R1模型。这一成果不仅降低了大语言模型的部署门槛,也为AI技术的普及应用开辟了新的可能性。

KTransformers项目的技术优势

KTransformers是一个创新的混合推理项目,能够利用CPU和GPU进行协同计算,通过将部分计算任务卸载到CPU内存,有效减少了昂贵显存的占用。该项目支持多种硬件设备和常见大语言模型,显著降低了大语言模型的部署成本。

类似地,llama.cpp也支持CPU+GPU混合推理模式,当模型规模超过显存容量时,可以同时利用CPU和GPU进行加速计算。

技术突破与性能优化

趋境科技Approaching.AI在业界首创"以存换算"全系统推理架构,能够协同HBM、DRAM、SSD和CPU、GPU、NPU等异构设备,突破显存容量限制,释放全系统的存储和计算能力。

2024年8月,KTransformers团队宣布使用21GB显存和136GB内存配置的电脑成功推理236B DeepSeek-Coder-V2模型。在BigCodeBench测试中,该模型的表现甚至优于GPT4-0613。

2025年2月10日,KTransformers发布V0.3预览版,支持使用单个或多个带有24GB显存的显卡,配合382GB DRAM设备,实现满血版DeepSeek-R1和V3的推理。相比llama.cpp,性能提升可达3~28倍。

V0.3预览版引入了Intel AMX加速内核和专家选择性激活方法,以及FP4量化技术。在14GB显存和382GB DRAM配置下,671B满血版DeepSeek-Coder-V3/R1的预填充速度提升27.79倍,输出文本速度提升最多3.03倍。

未来展望

目前,项目的主要瓶颈在于CPU计算速度和内存带宽。随着新一代至强处理器的推出,内存能力大幅提升,有望进一步优化性能。此外,KTransformers未来还可以考虑升级到英伟达RTX 5090D,其32GB GDDR7显存将提供更强的硬件支持。

值得关注的是,KTransformers在多卡推理方面的潜力。通过使用多块低显存显卡(如8G、12G或16G)进行推理,可能构建出比单个4090或5090更经济的解决方案。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号