问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

DeepSeek创始人梁文锋:用信息技术引领AI创新

创作时间:
作者:
@小白创作中心

DeepSeek创始人梁文锋:用信息技术引领AI创新

引用
新浪网
12
来源
1.
https://finance.sina.com.cn/tech/discovery/2025-01-27/doc-inehkprf9006182.shtml
2.
https://wap.eastmoney.com/a/202501223304127161.html
3.
https://www.stdaily.com/web/gdxw/2025-01/16/content_286502.html
4.
https://www.21jingji.com/article/20250115/a4cf46d7e05505af03f59aad1f78450d.html
5.
https://finance.sina.com.cn/stock/usstock/c/2025-01-27/doc-inehmenx8703110.shtml?finpagefr=p_108
6.
https://www.guancha.cn/internation/2025_01_28_763494.shtml
7.
https://www.stcn.com/article/detail/1480935.html
8.
https://new.qq.com/rain/a/20250126A0655C00
9.
https://www.thepaper.cn/newsDetail_forward_30050812
10.
https://36kr.com/p/3125188318697735
11.
https://api-docs.deepseek.com/zh-cn/news/news1226
12.
https://www.9fzt.com/9fztgw_1_top/e6bc1829bb1fef3d9e4988af00ae1882.html

2025年1月,中国AI初创企业DeepSeek发布最新模型R1,这款性能比肩OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet等顶级模型的AI产品,不仅完全开源,更以极低的成本实现了这一突破。这一消息在AI圈引起巨大震动,也让DeepSeek创始人梁文锋再次成为关注焦点。

01

从量化交易到AI创业:梁文锋的AI之路

梁文锋,1985年出生于广东湛江,浙江大学信息与电子工程学系本科和硕士。2008年,他开始带领团队使用机器学习等技术探索全自动量化交易。2015年,幻方量化正式成立,短短几年内便跻身国内量化私募领域的“四大天王”之列,资产管理规模突破千亿大关。

2023年,梁文锋宣布进军通用人工智能领域,创办了DeepSeek。他深知,中国AI不可能永远处在跟随的位置。“我们经常说中国 AI 和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。”梁文锋在接受媒体采访时曾表示。

02

技术突破:用2048个GPU挑战AI霸权

DeepSeek的最新模型R1之所以能在AI界掀起波澜,关键在于其突破性的技术创新。根据测评机构Artificial Analysis的独立分析,DeepSeek-V3在文本理解、编码、数学和学科知识方面,优于Meta的Llama 3.1-405B和阿里巴巴的Qwen 2.5-72B等开源模型,并在性能上和世界顶尖的闭源模型OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet不分伯仲。

更令人瞩目的是其惊人的训练效率。OpenAI创始成员之一安德烈·卡帕蒂强调了这种非凡的效率:像DeepSeek-V3这样性能和级别的模型,通常需要1.6万到10万个GPU的集群来训练,而中国初创公司仅用了2048个GPU在57天内便完成了训练。其成本约557.6万美元,仅为其他主流模型(如GPT-4)的1/10左右。

DeepSeek之所以能实现巨大的效率提升,关键在于其算法、框架和硬件的协同设计。具体来说,DeepSeek采用了两项核心技术创新:

  1. 混合专家系统(MoE):每项任务仅激活370亿个参数,大大降低了计算成本,同时保持了高性能。

  2. 多头潜在注意力(MLA):增强了模型处理细微关系和同时管理多个输入的能力,使其对需要上下文深度的任务非常有效。

03

独特的团队文化:年轻化与扁平化

DeepSeek的团队构成非常年轻,核心成员大多是刚毕业的学生或处于AI职业生涯早期的专业人士。梁文锋在人才招募上,更看重能力而非经验,公司核心技术岗位大多由刚毕业或仅有一两年工作经验的人员担当。

这种年轻化的团队结构,加上扁平化的管理方式,营造出一种开放、创新的工作氛围。团队成员在研究方面成果斐然,比如高华佐和曾旺丁,就在 MLA 架构的研究中实现了关键创新。

04

开源策略:以低成本挑战AI巨头

DeepSeek的商业模式与传统AI企业大不同。从第一天起,DeepSeek就以两个核心目标为导向:以透明、开源的方式推动通用人工智能(AGI);通过激进的定价和成本效益高的技术,使先进的AI更容易获得。

DeepSeek的开源策略和颠覆性定价让现有企业感到不安,促使OpenAI、Meta等AI巨头,以及包括字节跳动、腾讯、百度和阿里巴巴在内的中国主要科技公司重新评估自己的成本、战略和研究方法。

05

未来展望:打破AI发展瓶颈

DeepSeek的崛起,不仅展示了中国AI企业的技术实力,更为全球AI产业发展带来了新的启示。正如梁文锋所说:“无论大厂,还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有OpenAI指路,又都基于公开论文和代码……从长期看,大模型应用门槛会越来越低,初创公司在未来20年任何时候下场,也都有机会。”

DeepSeek的成功证明,即便在高端芯片受限的情况下,通过技术创新和工程优化,仍然可以开发出顶级的AI模型。这种突破不仅为中国AI生态的发展提供了新动力,也有利于全球AI技术向更加开放、多元和高效的方向迈进。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号