问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

技术突破:清华团队实现RTX 4090单卡运行DeepSeek-R1满血版

创作时间:
作者:
@小白创作中心

技术突破:清华团队实现RTX 4090单卡运行DeepSeek-R1满血版

引用
1
来源
1.
https://finance.sina.cn/2025-02-15/detail-inekqiwa5510042.d.html

清华大学KVCache.AI团队联合趋境科技在大模型算力领域取得重大突破。最新发布的KTransformers开源项目更新,成功实现了仅使用单张RTX 4090显卡就能运行DeepSeek-R1满血版的成就。这一突破不仅大幅降低了大模型推理的硬件成本,还展示了开源精神与硬件潜能结合的巨大潜力。

据国内媒体报道称,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目迎来重大更新,成功打破大模型推理算力门槛。

此次KTransformers项目更新带来重大突破,支持在24G显存(4090D)的设备上本地运行DeepSeek-R1、V3的671B满血版。

KTransformers项目的核心在于异构计算策略:

  • 稀疏性利用:MoE架构每次仅激活部分专家模块,团队将非共享的稀疏矩阵卸载至CPU内存,结合高速算子处理,显存占用压缩至24GB。

  • 量化与算子优化:采用4bit量化技术,配合Marlin GPU算子,效率提升3.87倍;CPU端通过llamafile实现多线程并行,预处理速度高达286 tokens/s。

  • CUDA Graph加速:减少CPU/GPU通信开销,单次解码仅需一次完整的CUDA Graph调用,生成速度达14 tokens/s。

这带来了怎样的后果呢?传统方案:8卡A100服务器成本超百万,按需计费每小时数千元。

现在,单卡RTX 4090方案:整机成本约2万元,功耗80W,适合中小团队与个人开发者。

NVIDIA RTX 4090运行DeepSeek-R1满血版的案例,不仅是技术奇迹,更是开源精神与硬件潜能结合的典范。它证明:在AI狂飙的时代,创新往往源于对"不可能"的挑战。

本文原文来自新浪科技

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号