从高考状元到AI大佬:梁文锋的科技创新之路
从高考状元到AI大佬:梁文锋的科技创新之路
2002年,广东湛江吴川一中,17岁的梁文锋以高考状元的成绩考入浙江大学。这个来自粤西小城的少年,或许连自己都未曾料到,他将在未来的人工智能领域掀起一场革命。
在浙江大学,梁文锋展现出非凡的学术天赋。本科期间,他就开始探索量化交易这一前沿领域。2007年,他考入浙江大学信息与通信工程专业攻读硕士学位,师从项志宇教授,专注于机器视觉研究。
2008年,金融危机席卷全球,而梁文锋却在危机中看到了机遇。他带领团队运用机器学习技术探索全自动量化交易,为日后在AI领域的突破奠定了基础。2010年,25岁的梁文锋创立了雅克比投资,正式开启了他的创业之路。
2015年,梁文锋与校友共同创立幻方量化。在短短几年内,幻方量化就成为国内首家突破千亿规模的量化私募大厂,跻身国内量化私募“四大天王”之一。这段经历不仅为梁文锋积累了强大的技术实力和算力资源,更为他日后创立DeepSeek提供了坚实的后盾。
2023年7月,梁文锋创立了DeepSeek(杭州深度求索人工智能基础技术研究有限公司),专注于AI大模型的研究与开发。这家从量化投资跨界而来的AI公司,很快就在全球AI领域引发了轰动。
2024年5月,DeepSeek发布的DeepSeek V2开源模型率先拉起了行业内的价格战。其推理成本被降到每百万token仅1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。同年12月,DeepSeek又发布了DeepSeek V3,再次颠覆了行业对于价格的认知。DeepSeek V3的API定价为输入每百万tokens 0.5元(缓存命中)/2元(缓存未命中),输出每百万tokens 8元,与字节Doubao-pro-256k定价相当,在国产模型中性价比继续提升。
DeepSeek的创新不仅体现在成本控制上,更在于其独特的技术架构。DeepSeek V3采用了混合专家(MoE)架构,总参数达6710亿,但每个输入只激活370亿参数,这种选择性激活的方式大大降低了计算成本。同时,DeepSeek还引入了多头潜在注意力(MLA)机制,通过低秩联合压缩机制,将Key-Value矩阵压缩为低维潜在向量,显著减少内存占用。
2025年1月20日,DeepSeek发布新一代推理模型DeepSeek-R1,性能与OpenAI的o1正式版持平,并开源。这一举动在海外引发巨大反响,英伟达高级研究科学家Jim Fan评价道:“我们生活在这样一个时代:一个不是美国公司的AI企业却实现了OpenAI成立时的使命——做真正开放的前沿研究、为所有人赋能。”
微软CEO萨蒂亚・纳德拉在瑞士达沃斯世界经济论坛上表示:“看到DeepSeek的新模型,真的令人印象非常深刻。他们切实有效地开发出了一款开源模型,在推理计算方面表现出色,且超级计算效率极高。”他强调:“我们必须非常、非常认真地对待中国的这些进展。”
DeepSeek的成功源于其独特的创新理念。梁文锋始终坚持“创新第一性原则”,他认为真正的差距不在于1年或2年的时间差,而在于是原创还是模仿。DeepSeek从不盲目追随全球最先进的模型,而是专注于从0到1的原始创新。
在公司文化上,DeepSeek保持着完全自下而上的组织结构,为研究人员提供无限的计算资源,优先看创造热情而不是证书。DeepSeek的突破性创新主要来自中国本土的应届毕业生和年轻技术人才,而非海外招聘。
在商业化策略上,DeepSeek坚持开源路线,即使在行业开始趋向闭源模型的情况下,仍坚信开源对于建立强大技术生态系统的重要性。梁文锋认为,颠覆性技术面前,闭源形成的护城河是短暂的,公司的真正价值在于建立一个具备持续创新能力的组织。
从高考状元到AI大佬,梁文锋用他的技术实力和创新精神,在全球AI领域书写了一段传奇。DeepSeek不仅在技术上达到了行业顶尖水平,更重要的是,它代表了一种全新的AI发展路径:坚持原创、专注基础研究、重视技术创新、拥抱开源生态。这种理念正在改变全球AI产业的格局,也为中国的科技创新树立了一个新的标杆。