DeepSeek-R1：开源新星如何重塑AI开发格局？

创作时间:

作者:

@小白创作中心

DeepSeek-R1：开源新星如何重塑AI开发格局？

引用

新浪网

等

来源

https://finance.sina.com.cn/money/fund/fundzmt/2025-02-12/doc-inekfnmc2699123.shtml

https://mt.sohu.com/a/857907123_121902920

https://cloud.tencent.com/developer/news/2136230

https://www.cnblogs.com/JavaEdge/p/18700609

https://cloud.tencent.com/developer/article/2494044

https://insight.xiaoduoai.com/faq/questions/D1IN2/what-exactly-is-the-market-feedback-and-user-evaluation-of-deepseek.html

https://www.cnblogs.com/xueweihan/p/18708961

https://hkaift.com/hk/deepseek-r1%E7%99%BC%E4%BD%88%EF%BC%9A%E5%BC%95%E9%A0%98%E4%B8%AD%E5%9C%8Bai%E7%AA%81%E7%A0%B4%EF%BC%8C%E5%8A%A9%E5%8A%9B%E9%87%91%E8%9E%8D%E7%A7%91%E6%8A%80%E7%99%BC%E5%B1%95/

https://arxiv.org/html/2502.02523v3

10.

https://china.newsroom.ibm.com/2025-02-10-DeepSeek-AI

技术突破：低成本高效率的训练创新

DeepSeek-R1的诞生标志着AI模型训练的一次重大突破。通过一系列创新的训练策略，DeepSeek团队成功地将训练成本降低至仅600万美元，相比OpenAI的5亿美元节省了超过98%的开支。

这一显著的成本优势主要得益于三大核心技术创新：

组相对策略优化（GRPO）算法：与传统的近端策略优化（PPO）相比，GRPO无需单独的价值模型，采用基于组的相对优势估计，显著降低了内存和计算开销。这种创新不仅简化了训练流程，还增强了模型的数学推理能力。
双重奖励系统：DeepSeek-R1-Zero版本引入了一个精心设计的奖励机制，包含准确性奖励和格式奖励两个核心组件。准确性奖励针对数学问题等确定性任务，支持自动化验证；格式奖励则引导模型使用标准化的思考过程格式，提高输出的结构化程度和可解释性。
模板化RLHF训练：团队开发了一个简洁而有效的训练模板，提供清晰的推理过程生成指南，强调结构化输出格式，同时避免引入特定内容偏见。这种模板化方法便于观察和评估模型的学习进展。

开源策略：社区驱动的技术进化

DeepSeek选择开源其技术，不仅展示了其技术实力，更开启了AI领域的新篇章。然而，DeepSeek的开源策略也引发了一些讨论。

虽然DeepSeek-R1的模型权重已经开放，但训练数据集和代码仍未完全公开。这一做法虽然符合MIT许可下的“开放权重”原则，但距离真正的开源仍有差距。为填补这一空白，业界启动了Open-R1项目，旨在系统复现DeepSeek-R1的数据和训练流程，推动开源推理模型的发展。

行业影响：重塑AI开发格局

DeepSeek-R1的发布在短短几天内就登顶中美两区苹果应用市场免费榜，其影响力可见一斑。据统计，该模型在1月的最后一周迎来了爆发式增长，7天内完成了1亿用户的增长，总用户数达到1.25亿，且这一切是在没有任何广告投放的情况下实现的。

DeepSeek-R1的广泛应用场景展示了其强大的多功能性和适应性。在客户服务领域，它被用于自动回复客户咨询、多渠道客服支持、订单处理、退款处理等；在个性化推荐方面，它为电商平台、音乐平台、流媒体平台等提供个性化内容推荐服务；在教育领域，它被用于在线辅导、作业批改、学习路径规划等；在医疗健康领域，它提供初步医疗建议、健康监测、疾病预测等服务；在金融领域，它被用于市场趋势分析、风险评估、智能投顾等。