DeepSeek创始人梁文锋:用信息技术引领AI创新
DeepSeek创始人梁文锋:用信息技术引领AI创新
2025年1月,中国AI初创企业DeepSeek发布最新模型R1,这款性能比肩OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet等顶级模型的AI产品,不仅完全开源,更以极低的成本实现了这一突破。这一消息在AI圈引起巨大震动,也让DeepSeek创始人梁文锋再次成为关注焦点。
从量化交易到AI创业:梁文锋的AI之路
梁文锋,1985年出生于广东湛江,浙江大学信息与电子工程学系本科和硕士。2008年,他开始带领团队使用机器学习等技术探索全自动量化交易。2015年,幻方量化正式成立,短短几年内便跻身国内量化私募领域的“四大天王”之列,资产管理规模突破千亿大关。
2023年,梁文锋宣布进军通用人工智能领域,创办了DeepSeek。他深知,中国AI不可能永远处在跟随的位置。“我们经常说中国 AI 和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。”梁文锋在接受媒体采访时曾表示。
技术突破:用2048个GPU挑战AI霸权
DeepSeek的最新模型R1之所以能在AI界掀起波澜,关键在于其突破性的技术创新。根据测评机构Artificial Analysis的独立分析,DeepSeek-V3在文本理解、编码、数学和学科知识方面,优于Meta的Llama 3.1-405B和阿里巴巴的Qwen 2.5-72B等开源模型,并在性能上和世界顶尖的闭源模型OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet不分伯仲。
更令人瞩目的是其惊人的训练效率。OpenAI创始成员之一安德烈·卡帕蒂强调了这种非凡的效率:像DeepSeek-V3这样性能和级别的模型,通常需要1.6万到10万个GPU的集群来训练,而中国初创公司仅用了2048个GPU在57天内便完成了训练。其成本约557.6万美元,仅为其他主流模型(如GPT-4)的1/10左右。
DeepSeek之所以能实现巨大的效率提升,关键在于其算法、框架和硬件的协同设计。具体来说,DeepSeek采用了两项核心技术创新:
混合专家系统(MoE):每项任务仅激活370亿个参数,大大降低了计算成本,同时保持了高性能。
多头潜在注意力(MLA):增强了模型处理细微关系和同时管理多个输入的能力,使其对需要上下文深度的任务非常有效。
独特的团队文化:年轻化与扁平化
DeepSeek的团队构成非常年轻,核心成员大多是刚毕业的学生或处于AI职业生涯早期的专业人士。梁文锋在人才招募上,更看重能力而非经验,公司核心技术岗位大多由刚毕业或仅有一两年工作经验的人员担当。
这种年轻化的团队结构,加上扁平化的管理方式,营造出一种开放、创新的工作氛围。团队成员在研究方面成果斐然,比如高华佐和曾旺丁,就在 MLA 架构的研究中实现了关键创新。
开源策略:以低成本挑战AI巨头
DeepSeek的商业模式与传统AI企业大不同。从第一天起,DeepSeek就以两个核心目标为导向:以透明、开源的方式推动通用人工智能(AGI);通过激进的定价和成本效益高的技术,使先进的AI更容易获得。
DeepSeek的开源策略和颠覆性定价让现有企业感到不安,促使OpenAI、Meta等AI巨头,以及包括字节跳动、腾讯、百度和阿里巴巴在内的中国主要科技公司重新评估自己的成本、战略和研究方法。
未来展望:打破AI发展瓶颈
DeepSeek的崛起,不仅展示了中国AI企业的技术实力,更为全球AI产业发展带来了新的启示。正如梁文锋所说:“无论大厂,还是创业公司,都很难在短时间内建立起碾压对手的技术优势。因为有OpenAI指路,又都基于公开论文和代码……从长期看,大模型应用门槛会越来越低,初创公司在未来20年任何时候下场,也都有机会。”
DeepSeek的成功证明,即便在高端芯片受限的情况下,通过技术创新和工程优化,仍然可以开发出顶级的AI模型。这种突破不仅为中国AI生态的发展提供了新动力,也有利于全球AI技术向更加开放、多元和高效的方向迈进。