清华团队突破性优化:4090单卡即可运行DeepSeek-R1模型
清华团队突破性优化:4090单卡即可运行DeepSeek-R1模型
近日,清华大学KVCache.AI团队与趋境科技合作开发的KTransformers项目取得重要突破,成功支持在英伟达RTX 4090D显卡上运行DeepSeek-R1模型。这一成果不仅降低了大语言模型的部署门槛,也为AI技术的普及应用开辟了新的可能性。
KTransformers项目的技术优势
KTransformers是一个创新的混合推理项目,能够利用CPU和GPU进行协同计算,通过将部分计算任务卸载到CPU内存,有效减少了昂贵显存的占用。该项目支持多种硬件设备和常见大语言模型,显著降低了大语言模型的部署成本。
类似地,llama.cpp也支持CPU+GPU混合推理模式,当模型规模超过显存容量时,可以同时利用CPU和GPU进行加速计算。
技术突破与性能优化
趋境科技Approaching.AI在业界首创"以存换算"全系统推理架构,能够协同HBM、DRAM、SSD和CPU、GPU、NPU等异构设备,突破显存容量限制,释放全系统的存储和计算能力。
2024年8月,KTransformers团队宣布使用21GB显存和136GB内存配置的电脑成功推理236B DeepSeek-Coder-V2模型。在BigCodeBench测试中,该模型的表现甚至优于GPT4-0613。
2025年2月10日,KTransformers发布V0.3预览版,支持使用单个或多个带有24GB显存的显卡,配合382GB DRAM设备,实现满血版DeepSeek-R1和V3的推理。相比llama.cpp,性能提升可达3~28倍。
V0.3预览版引入了Intel AMX加速内核和专家选择性激活方法,以及FP4量化技术。在14GB显存和382GB DRAM配置下,671B满血版DeepSeek-Coder-V3/R1的预填充速度提升27.79倍,输出文本速度提升最多3.03倍。
未来展望
目前,项目的主要瓶颈在于CPU计算速度和内存带宽。随着新一代至强处理器的推出,内存能力大幅提升,有望进一步优化性能。此外,KTransformers未来还可以考虑升级到英伟达RTX 5090D,其32GB GDDR7显存将提供更强的硬件支持。
值得关注的是,KTransformers在多卡推理方面的潜力。通过使用多块低显存显卡(如8G、12G或16G)进行推理,可能构建出比单个4090或5090更经济的解决方案。