DeepSeek如何用3%的成本挑战硅谷AI巨头？

创作时间:

作者:

@小白创作中心

DeepSeek如何用3%的成本挑战硅谷AI巨头？

引用

wired

等

来源

https://www.wired.com/story/deepseek-china-model-ai/

https://m.163.com/dy/article/JMM77U3B051481US.html

https://blog.csdn.net/weixin_70639631/article/details/142326173

https://www.forbes.com/sites/janakirammsv/2025/01/26/all-about-deepseekthe-chinese-ai-startup-challenging-the-us-big-tech/

https://c.m.163.com/news/a/JMM77U3B051481US.html

https://blog.csdn.net/star_nwe/article/details/142336793

https://aihub.caict.ac.cn/models/deepseek-ai/DeepSeek-V3

https://www.iflow.cn/static/chat?q=DeepSeek-VL2%3A%20Mixture-of-Experts%20Vision-Language%20Models%20for%20Advanced%20Multimodal%20Understanding

https://m.toutiao.com/article/7463380491665457702/

10.

http://wildgun.net/2024/09/check_the_thinking_process_of_chatgpt_o1/

11.

https://paperreading.club/page?id=275475

1月20日，中国AI初创公司DeepSeek发布了一个开源模型，这个消息迅速在硅谷引起轰动。根据公司发布的论文，DeepSeek-R1在多个数学和推理基准测试中超越了行业领先的模型，包括OpenAI的o1。更令人瞩目的是，在关键的能力、成本和开放性指标上，DeepSeek正在给西方AI巨头带来前所未有的挑战。

技术突破：High-Flyer架构的创新之路

DeepSeek的成功并非偶然，而是源于其独特的技术路线。与许多依赖先进硬件的中国AI公司不同，DeepSeek专注于通过软件驱动的资源优化来实现突破。这种策略在当前中美科技竞争的背景下显得尤为重要，因为美国的出口管制严重限制了中国公司获取高性能芯片的能力。

悉尼科技大学的张教授解释说：“DeepSeek没有像其他中国AI公司那样依赖硬件，而是专注于软件优化。他们采用了开源方法，汇集集体智慧，推动协同创新。这种做法不仅缓解了资源限制，还加速了前沿技术的开发，使DeepSeek在封闭竞争中脱颖而出。”

性能对比：以低成本实现高效率

DeepSeek的技术优势在实际应用中得到了充分体现。根据Meta公司内部员工的爆料，DeepSeek-V3在多项基准测试中已经超越了Meta最新的Llama 4模型。更令人印象深刻的是，DeepSeek仅用了550万美元的训练预算就实现了这一突破，而Meta生成式AI部门的每位“领导”的薪资都超过了这个数字。

具体来看，DeepSeek-V3在大规模多任务理解数据集MMLU-Pro上接近Llama 3.1-405B的水平，而在算法类代码场景和工程类代码场景下，Llama 3.1-405B的性能只有DeepSeek-V3的一半。在成本方面，DeepSeek-V3的总训练时长为278.8万GPU小时，使用2048块英伟达H800 GPU，耗时约两个月完成。相比之下，开源的Llama 3.1-405B消耗了3080万GPU小时，成本是DeepSeek-V3的11倍。即使是OpenAI的GPT-4o模型，其训练成本也高达1亿美元，是DeepSeek-V3训练花费557万美元的近18倍。