国内算力市场:三大运营商算力建设新进展
国内算力市场:三大运营商算力建设新进展
随着AI技术的快速发展,算力需求和供给的变化备受关注。本文将从芯片供给情况、供需现状判断、投资主体的投资情况、整体趋势以及如何应对算力供需变化的策略等多个维度,全面分析国内算力市场的现状和未来趋势。
芯片供给情况
目前中国市场先进 AI 芯片出货量在 100 万枚以上,从供应链人士处了解到,按保守计算,2024 年中国市场英伟达H20 系列芯片出货量约为 70 万枚,某国产主流 AI 芯片出货量约为 30 万枚,不过国际市场调研机构 SemiAnalysis 预估英伟达 H20 系列芯片出货量超 100 万枚、国产主流 AI 芯片出货量约 55 万枚,但被供应链人士认为偏乐观。中国市场 AI 芯片主要源于英伟达和华为,此外也有少数科技公司自研、经销商采购等其他供货渠道。
供需现状判断
短期情况
从多个科技云厂商、部分电信运营商人士反馈来看,现有智能算力能满足基本业务需求,局部还存在过剩现象,像 2023 年跟风囤芯片的中小服务商正在降价出售闲置算力,所以短期是够用的。
长期情况
随着 AI 应用不断落地,其对算力的需求会持续增加,因此长期来看算力是短缺的。也正因如此,各相关主体如大型科技公司(华为、阿里、字节跳动、腾讯、百度等)、电信运营商(中国移动、中国电信、中国联通)即便当前算力够用,也采取 “适度超前投资” 的策略,继续大规模采购算力。
谁在投资算力?
大型科技公司
图1:阿里、腾讯、百度资本支出总和、增速(2018年一季度-2024年二季度)
图2:阿里、腾讯、百度资本支出(2021年一季度—2024二季度)
注:1.阿里自然年与财年不一致,数据已按照自然年进行调整;2.科技公司资本支出通常用于采购芯片和服务器,租赁土地建设数据中心。这与算力投资直接相关
投资情况及特点:拥有云计算业务的大型科技公司(如华为、阿里、字节跳动、腾讯、百度等)需要大规模投资智能算力,投资体现在采购芯片、服务器以及租赁土地建设数据中心等方面,这些会在其资本支出中有所体现。2024 年上半年,阿里、腾讯、百度的资本支出总和高达 504.4 亿元,同比增长 121.6%,且增长趋势短期不会改变。若延续这一趋势,2024 年这三家公司资本支出总和将超 1300 亿元。当前,阿里、字节跳动已具备 10 万卡级别的算力储备。
决心与表态:以阿里为例,在 2025 财年一季度(即 2024 年二季度)财报电话会中,管理层称未来几个季度预计继续保持高速资本支出,其集团 CEO、阿里云智能董事长兼 CEO 吴泳铭在云栖大会上也表达了继续加码 AI 算力投入的决心。
电信运营商
投资重点转变及计划:2023 年之后,电信运营商资本支出重点从 5G 转向算力。中国移动、中国电信在 2024 年财报中披露了算力相关投资计划,中国移动计划投资 475 亿元、中国电信计划投资 370 亿元,两者合计 845 亿元,同比增长 13%。
国产智算采购及成果:中国移动、中国电信作为央国企,承担着国产智算采购重要任务,中国移动更是付出巨额支出。如 2024 年中国移动两个国产智算采购招标标案总金额达 216 亿元,采购超过 9200 台昇腾 AI 服务器,对应昇腾 AI 芯片公开招标采购规模至少在 3.6 万卡 - 7.4 万卡之间。并且,它们已建成多个万卡智算中心,且以国产算力为主,像中国移动在呼和浩特、哈尔滨分别建立了万卡智算中心,中国电信在上海临港、京津冀也有相应规模的智能算力中心。
图3:电信运营商算力相关资本支出(2022年-2024年)
注:1.为统计方便,中国电信资本支出选取口径为产业数字化开支;2.中国电信的算力资本支出囊括在产业数字化开支中,未单独披露;3.中国移动、中国电信2024年的资本支出均为财报披露的计划数据
图4:中国移动2024年两大智算公开招标案
注:1.中国移动公开招标案中披露了服务器采购台数和标包金额;2.中标方为昆仑、华鲲振宇、宝德、百信、长江、鲲泰、湘江鲲鹏、四川虹信软件等昇腾经销商
各地方城市及央国企
投资形式:通常由政府牵头设立专项资金,地方央国企发布招投标公告,再由第三方企业参与建设智算中心。
投资规模:据不完全统计,截至 2024 年 10 月 16 日,2024 年各地方城市上马的智算中心招投标项目至少 30 个以上,涉及金额总和至少超 275 亿元。同时,中国信通院截至今年 5 月的数据显示,中国建设和规划中的智算中心共有 185 座,总算力为 272 EFLOPS,建成运营的有 104 EFLOPS,全国智算中心以云服务形式对外提供的比例是 23%。
注:1.统计时间为2024年1月-2024年10月16日,以上为不完全统计;2.投资金额包含服务器采购、智算中心建设等软硬件及土建投入
整体趋势
与 2023 年相比,大型科技公司、电信运营商、各地方城市和央国企在 2024 年算力投资热度只增不减,从英伟达2024 年在中国市场营收比去年同期增长 42.3% 也能侧面反映这一趋势。尽管美国出台 “出口管制规则” 断供部分高性能 AI 芯片,英伟达推出 “阉割版” H20 芯片继续在中国市场销售,其出货量约 70 万枚,中国市场的算力投资热情依然高涨。
短期够用,长期短缺
需求结构变化情况
AI 芯片用途分为模型训练和应用推理两部分,其需求结构正在发生改变。国际市场调研机构 IDC 预测,2022 - 2027 年,中国智能算力内部训练算力占比会下滑到 27.4%,推理算力占比将上升到 72.6%。
不同阶段的算力供需状况
2023 年情况:大模型兴起引发 “百模大战”,使得训练算力需求激增,同时美国商务部的 “出口管制条例” 限制了算力供应,各企业 “恐慌式” 抢购,进一步加剧了算力供不应求的局面。
2024 年情况:当前算力逐渐够用,各企业囤积的算力增多,而模型训练需求放缓,应用推理需求尚处爆发前夜,出现了一个青黄不接的 “空档期”,部分科技公司技术人士预计这一 “空档期” 可能持续到 2025 年上半年,但总体不会太长。原因在于国内各大科技公司的旗舰模型已接近 GPT - 4 性能,暂时放缓了模型训练步伐,例如有云厂商高管表示所在云平台训练算力需求增长平缓,推理算力需求已超过训练算力需求。
影响 “空档期” 长短及未来算力需求的因素
影响 “空档期” 长短因素:一是下一代模型训练竞赛何时开启;二是推理算力增速,这取决于 AI 应用普及渗透速度。
未来训练算力需求趋势:按照以往规律及相关人士观点,2025 - 2026 年若下一代基础大模型出现,国内厂商追赶所需的训练算力会指数级增长,如 2023 年训练基础大模型大概需 1 万枚 AI 芯片,2024 年后训练下一代基础大模型有朝着 10 万枚 AI 芯片演进的趋势(目前国际市场尚无成功案例)。
未来推理算力需求趋势:随着 AI 应用渗透率不断提升,推理算力需求呈确定的增长趋势。从实际数据来看,2027 年推理算力在智能算力大盘中的占比甚至会超过 70%,像百度文心大模型、字节跳动豆包大模型的日均 Token 消耗量都呈现快速增长态势,字节跳动预计 2027 年豆包每天 Token 消耗量会超 100 万亿,是现在的 100 倍以上。
用好闲置算力
智能算力闲置情况及特点
中国市场部分算力供应商存在智能算力闲置现象,像电信运营商、部分地方智算中心都有闲置算力出现。不过,局部的算力闲置不能简单等同于 “算力过剩”,因为很多企业采取 “适度超前投资” 策略,所以少量闲置属于正常情况。而国产 AI 芯片的闲置更为特殊,其目前仅达到 “能用” 程度,距离 “好用” 还有差距,盲目使用易造成算力浪费,需通过技术手段做适配来提升使用效率。
提升智能算力使用效率的策略
利用云服务形式:在硬件受限背景下,可借助软件手段压榨 AI 芯片算力效率,采用云服务形式向社会提供算力,在训练、推理环节提高芯片利用率,以此提升算力效率。从中国信通院数据来看,全国智算中心以云服务形式对外提供的比例仅 23%,且不同类型云的合理利用率有别,如公共云合理利用率为 40% - 60%,政务云为 25% - 40%,私有化算力资源使用率一般不超 5%,提高云服务算力输出比例很关键,阿里云、华为云已向多政策部门提出相关建议。
优化模型训练算力使用:模型训练常依靠千卡、万卡集群完成,但单卡故障会影响集群运作,集群规模越大、芯片越多,故障率越高,极端情况下,模型训练会浪费 50% 的算力资源。对此,企业可在自有数据中心部署百度百舸计算平台等调度工具,提高训练算力使用效率。
优化应用推理算力使用:应用推理是未来算力消耗的主要部分,优化模型结构可节省算力。具体原则是在 OpenAI 提出的 Scaling Law 下,提升数据质量、数量,适当降低模型参数,还可采用 MoE 架构提升模型性能、降低推理成本,且能在保证模型效果的同时减少算力消耗。
应对算力供需变化的整体策略
2024 年中国智能算力处于 “短期够用,长期短缺” 状态,鉴于下一阶段算力供需关系仍会剧烈变化,可采取适度超前投资、提高算力效率的策略来应对市场变化。