DeepSeek:中国AI新势力如何撼动美国科技霸权?
DeepSeek:中国AI新势力如何撼动美国科技霸权?
2025年1月25日,美国主流媒体CNBC对中国新发布的AI大模型DeepSeek进行了专题报道,题为《How China’s New AI Model DeepSeek Is Threatening U.S. Dominance》。DeepSeek凭借其卓越的技术实力和创新性,正在改变中美在AI领域的竞争格局。
低调入场,一鸣惊人
在竞争激烈的AI领域,DeepSeek就像一位低调的"黑马"选手,在人们还未充分留意时,已悄然崛起,凭借一系列技术成果惊艳众人。
2024年12月26日,DeepSeek的开源模型DeepSeek-V3上线,瞬间在国内外AI圈引发轰动。该模型自研了MoE模型,拥有671B参数,激活37B,并在14.8Ttoken上进行了预训练。
其性能不仅甩开了此前发布的所有开源模型,更是在大多数基准上,比肩乃至优于世界顶尖闭源模型GPT-4o,关键是整个训练仅花费557.6万美元,与OpenAI、Meta等动辄数亿美元的预训练成本相比,堪称"性价比之王"。
紧接着,2025年1月20日,DeepSeek又发布推理模型DeepSeek-R1正式版。在数学、代码、自然语言推理等多个领域,DeepSeek-R1展现出与OpenAI o1正式版比肩的实力。
在被广泛认可的Chatbot Arena榜单上,DeepSeek-R1综合排名进入前三,在风格控制类(StyleCtrl)中与OpenAI o1并列第一。而且,DeepSeek-R1采用MIT许可协议,支持免费商用、任意修改和衍生开发,进一步扩大了其影响力。
幻方量化:DeepSeek背后的推手
幻方量化,作为一家在量化投资领域赫赫有名的私募巨头,早在创立之初就将目光投向了人工智能技术。2015年成立后,幻方量化迅速在量化投资领域崭露头角,2016年便推出了第一个AI模型,开启了量化投资的智能化时代。
此后,几乎所有量化策略都采用AI模型计算,其管理规模也在2019年突破百亿,成为国内量化私募的"四巨头"之一,甚至一度成为中国首家突破千亿规模的私募量化大厂。
在技术投入上,幻方量化堪称豪掷千金。2020年,幻方累计投资超亿元打造的AI超级计算机"萤火一号"正式投入运作,其算力号称可匹敌4万台个人电脑,为AI研究提供了强大的计算支持。
仅仅一年后,幻方又投入十亿建设"萤火二号",算力扩容翻倍,集群连续满载运行,平均占用率达到96%以上。据国盛证券数据,在云算力端,当时国内拥有超过1万张A100芯片储备的企业寥寥无几,幻方量化便是其中之一,强大的算力资源为其在人工智能领域的探索奠定了坚实基础。
2023年,全球人工智能热潮汹涌澎湃,幻方量化顺势而为,孵化出了DeepSeek。依托幻方量化在人工智能领域多年积累的技术、数据和算力,DeepSeek一成立便站在了巨人的肩膀上,专注于AI大模型的研究与开发,开启了在大模型领域的征程。
DeepSeek的技术突破
DeepSeek V2:性价比之王
2024年5月,DeepSeek发布的DeepSeek V2开源模型,凭借创新的架构设计,在AI领域引发了一场"性价比革命"。
它创新性地提出了MLA(多头潜在注意力机制)架构,将显存占用大幅降低至过去常用MHA架构的5%-13%,同时,独创的DeepSeekMoE Sparse结构,把计算量也降到极致。
这一系列创新使得推理成本大幅下降,每百万token仅需1元钱,约为Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。
如此亲民的价格,瞬间打破了AI模型市场的原有格局,引发了国内大模型的价格战。字节、腾讯、百度、阿里等大厂纷纷跟进降价,让更多开发者和企业能够享受到大模型带来的技术红利,推动了AI技术的普及和应用。
DeepSeek V3:性能飞跃
仅仅半年多后,DeepSeek再次发力,推出DeepSeek-V3。这一次,它以更强大的性能和更低的训练成本震惊了全球AI界。
DeepSeek-V3采用了自研的MoE模型,拥有高达6710亿的总参数,虽然参数总量不及GPT-4o的1.76万亿,但通过巧妙的架构设计,每次推理仅激活370亿参数,在保持高性能的同时,大大提高了计算效率。
在14.8万亿token上的预训练,让它在多项评测中成绩斐然,不仅超越了Qwen2.5-72B和Llama-3.1-405B等开源模型,更是在性能上与世界顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet不相上下。
在百科知识类任务中,DeepSeek-V3在MMLU、MMLU-Pro、GPQA、SimpleQA等测试上的表现显著提升,接近Claude-3.5-Sonnet-1022;长文本测评里,在DROP、FRAMES和LongBench v2上,平均表现超越其他模型;代码领域,在算法类代码场景(Codeforces)中,远远领先于非o1类模型,在工程类代码场景(SWE-Bench Verified)中逼近Claude-3.5-Sonnet-1022;数学方面,在美国数学竞赛(AIME 2024,MATH)和全国高中数学联赛(CNMO 2024)上,大幅超过所有开源闭源模型。
更令人惊叹的是,其训练成本仅为557.6万美元,仅用了278.8万个GPU小时,而Llama3-405B的训练则消耗了3080万GPU小时。这种高效的训练方式,为大模型的发展开辟了新的路径,证明了在有限资源下,通过优化算法和架构,同样可以训练出高性能的模型。
DeepSeek - R1:推理新贵
2025年1月发布的DeepSeek - R1,将DeepSeek的技术实力提升到了新的高度。它专注于推理能力的提升,在数学、代码、自然语言推理等多个领域展现出与OpenAI o1正式版比肩的实力。
在Codeforces算法类代码场景和GPQA、MMLU知识类测试中,DeepSeek - R1的得分与OpenAI o1接近,在SWE-Bench Verified工程类代码场景、AIME 2024和MATH美国数学竞赛项目上,甚至超过了OpenAI o1。与前作DeepSeek-V3相比,在AIME 2024和Codeforces中的得分提升了近一倍,推理能力有了显著进步。
DeepSeek - R1在训练过程中大规模使用了强化学习(RL)技术,几乎跳过了监督微调(SFT)步骤,就能实现推理能力的自我提升。在推理过程中,它能够自然地涌现出强大的推理能力和有趣的推理行为,如自我反思、评估先前步骤、自发寻找替代方案等,甚至出现了"尤里卡时刻",即突然理解并解决以前无法理解的问题。
DeepSeek - R1采用MIT许可协议,完全开源,开发者可以自由使用、修改和分发,这一举措进一步推动了AI技术的共享与创新,让更多人能够基于其进行二次开发和应用拓展,加速了AI技术在各个领域的落地应用。
DeepSeek对中美竞争的影响
对科技战的影响
在当前中美科技战的大背景下,AI领域无疑是双方角逐的关键战场。DeepSeek的横空出世,宛如一颗投入平静湖面的巨石,激起千层浪,极大地改变了中美在AI领域的竞争态势。
长期以来,美国凭借其雄厚的科研实力、丰富的人才资源和强大的资本支持,在AI领域占据着领先地位。OpenAI、Meta等科技巨头在大模型研发上投入巨大,不断推出具有影响力的模型,引领着全球AI技术的发展潮流。而中国的AI企业虽然也在积极追赶,但在技术实力和国际影响力上与美国仍存在一定差距。
DeepSeek的出现,打破了这一局面。其研发的DeepSeek-V3和DeepSeek-R1等模型,在性能上可与美国顶尖模型相媲美,甚至在某些方面实现了超越。DeepSeek-V3以其6710亿参数的强大模型容量和创新的架构设计,在多项基准测试中表现优异,接近或超过了美国同类闭源模型的水平。
DeepSeek-R1更是在推理能力上与OpenAI o1正式版比肩,在数学、代码等专业领域展现出卓越的性能。这一系列成果表明,中国在AI核心技术上已经取得了重大突破,成功拉近了与美国的技术差距,让中国在这场科技战中有了更有力的"武器"。
DeepSeek的创新技术路线,如MLA架构、MoE架构以及FP8低精度训练等技术,为中国AI产业的发展提供了新的思路和方向。这些技术不仅提升了模型的性能和效率,还降低了研发成本,使得中国AI企业在面对美国的技术封锁和竞争时,能够另辟蹊径,通过技术创新实现弯道超车。这对于中国在全球AI产业中占据一席之地,打破美国的技术垄断,具有重要的战略意义。
对金融战的影响
AI技术的发展与金融市场紧密相连,美国股市近年来的牛市行情,科技股尤其是AI相关股票功不可没。英伟达、微软、谷歌等公司凭借在AI领域的领先地位,股价一路飙升,成为推动美国股市上涨的核心力量。
其中,英伟达作为AI芯片的龙头企业,其股价的走势更是对美国股市有着举足轻重的影响。在AI热潮的推动下,英伟达的市值大幅增长,一度成为全球市值最高的公司之一,其业绩表现和市场预期直接影响着投资者对科技股乃至整个股市的信心。
DeepSeek的崛起,却给美国股市的这一繁荣景象带来了潜在的冲击。DeepSeek以极低的成本实现了高性能的模型研发,这一成果让市场开始重新审视AI行业投资逻辑和价值体系。一直以来,美国科技公司在AI研发上投入巨大,依赖大量昂贵的芯片和高额的研发费用来维持技术领先地位。而DeepSeek仅用少量芯片和557.6万美元的训练成本,就打造出了与美国顶尖模型媲美的产品。
这使得投资者开始质疑,那些投入大量资金用于AI研发的美国公司,其高昂的成本是否合理,是否能够获得相应的回报。如果市场对美国AI公司投资价值产生怀疑,资金可能会从这些公司流出,导致其股价下跌。英伟达等AI芯片企业的市场份额和盈利能力可能会受到影响。
若DeepSeek的技术路线被证明可行,更多的企业可能会选择采用低成本的研发模式,减少对昂贵芯片的依赖,这将直接冲击英伟达的市场需求,进而影响其股价。而英伟达股价的下跌,可能会引发连锁反应,导致整个美国科技股板块的调整,甚至对美国股市的牛市行情构成威胁。
从宏观角度看,美国股市在全球金融市场中占据着重要地位,其波动会对全球金融市场产生溢出效应。若因DeepSeek的出现导致美国股市出现大幅调整,可能会引发全球金融市场的动荡,改变当前的金融格局,为中美金融博弈带来新的变数。
美国逐渐失去对中国的优势
DeepSeek的出现,无疑让美国在AI领域的优势进一步缩小。这不仅是技术层面的较量,更是国家综合实力和创新能力的体现。美国一直试图通过技术封锁、人才限制等手段,遏制中国在高科技领域的发展,以维持其在全球的科技霸权地位。但DeepSeek的成功,打破了美国的如意算盘,让中国在AI领域拥有了与美国分庭抗礼的实力。这也促使美国重新审视其对华科技政策,思考如何在新的竞争格局下保持自身的竞争力。
从更宏观的角度来看,DeepSeek的崛起是中国科技实力不断提升的一个缩影。近年来,中国在5G通信、高铁、航天等多个领域取得了举世瞩目的成就,在国际舞台上的话语权越来越大。美国在这些领域的传统优势正逐渐被削弱,而中国则以创新为驱动,不断缩小与美国的差距,甚至在某些方面实现了超越。DeepSeek的出现,只是中国科技崛起浪潮中的一朵浪花,但它所蕴含的力量,却足以让世界重新认识中国科技的实力和潜力。