问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI算力产业链及竞争格局分析

创作时间:
作者:
@小白创作中心

AI算力产业链及竞争格局分析

引用
1
来源
1.
http://ai.zhiding.cn/2024/0513/3157813.shtml

随着AI技术的快速发展,AI算力产业链已成为推动人工智能应用的重要基础设施。本文将从服务器架构、大模型参数发展趋势、异构计算优势、AI服务器市场规模预测等多个维度,全面解析AI算力产业链的现状与未来发展方向。

1. AIGC火热,产业生态形成

生成算法、预训练模式、多模态等AI技术的融合,推动了AIGC(AI Generated Content)的大爆发。目前,AIGC产业生态体系已初步形成,呈现出三层架构:

  • 第一层:上游基础层 - 由预训练模型构建的AIGC技术基础设施层
  • 第二层:中间层 - 垂直化、场景化、个性化的模型和应用工具
  • 第三层:应用层 - 面向C端用户的文字、图片、音视频等内容生成服务

根据IDC发布的《2022年第四季度中国服务器市场跟踪报告Prelim》,浪潮在国内服务器市场份额领先,新华三紧随其后,超聚变排名第三,中兴通讯跻身前五。

2. 服务器基本整体构成

服务器主要硬件包括处理器、内存、芯片组、I/O (RAID卡、网卡、HBA卡) 、硬盘、机箱 (电源、风扇)。以一台普通服务器为例,其生产成本构成大致为:

  • CPU及芯片组:50%
  • 内存:15%
  • 外部存储:10%
  • 其他硬件:25%

服务器的逻辑架构与普通计算机类似,但需要提供高性能计算,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求更高。其中,CPU和内存是最关键的部分,分别负责数据逻辑运算和存储管理。

3. 大模型参数量持续提升

GPT模型的参数量远超BERT和T5模型。GPT-3作为目前最大的知名语言模型之一,包含1750亿个参数。回顾GPT的发展历程,从2018年发布的GPT-1到GPT-3,模型层数从12层增加到96层,数据量和参数量实现了数量级的提升。

4. 未来异构计算或成为主流

异构计算是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式,主要包括GPU云服务器、FPGA云服务器和弹性加速计算实例EAIS等。在CPU+GPU的异构计算架构中,GPU与CPU通过PCle总线连接协同工作,CPU负责处理逻辑复杂的串行程序,GPU则专注于数据密集型的并行计算程序。

阿里第一代计算型GPU实例GN4于2017年发布,搭载Nvidia M40加速器,在万兆网络环境下,相比同时代的CPU服务器性能提升近7倍。

5. 为什么GPU适用于AI

CPU适用于延迟和单位内核性能要求较高的工作负载,而GPU则在并行计算方面具有显著优势。在AI实现过程中,训练和推理是两个关键环节:

  • 训练过程:通过大数据训练出复杂的神经网络模型,确定网络中的权重和偏置值
  • 推理过程:利用训练好的模型,使用新数据推理出各种结论

训练过程需要密集的计算,而推理过程则对算力的需求较低。NVIDIA的T4 GPU在推理任务中性能比CPU高出40倍,A100和H100则在训练任务中展现出更强的性能。

6. 推算ChatGPT带来的服务器需求增量

H100相比上一代产品,综合技术创新可以将大型语言模型的速度提高30倍。根据Nvidia测试结果,H100针对大型模型提供高达9倍的AI训练速度,超大模型的AI推理性能提升高达30倍。

假设应用H100服务器进行训练,该服务器AI算力性能为32 PFLOPS,最大功率为10.2 kw。根据天翼智库数据,GPT-3模型参数约1750亿个,预训练数据量为45 TB,折合成训练集约为3000亿tokens。按照有效算力比率21.3%来计算,训练阶段实际算力需求为1.48×109 PFLOPS。

对AI服务器训练阶段需求进行敏感性分析,两个变化参数为:同时并行训练的大模型数量和单个模型要求训练完成的时间。按照A100服务器5 PFLOPs,H100服务器32 PFLOPs来进行计算。若不同厂商需要训练10个大模型,1天内完成,则需要A100服务器34233台,需要H100服务器5349台。

7. AI服务器市场规模预计将高速增长

AI服务器作为算力基础设备,其需求有望受益于AI时代下对于算力不断提升的需求而快速增长。根据TrendForce,截至2022年为止,预估搭载GPGPU(General Purpose GPU)的AI服务器年出货量占整体服务器比重近1%,预估在ChatBot相关应用加持下,有望再度推动AI相关领域的发展,预估出货量年成长可达8%;2022~2026年复合成长率将达10.8%。

IDC预计,中国AI服务器2021年的市场规模为57亿美元,同比增长61.6%,到2025年市场规模将增长到109亿美元,CAGR为17.5%。

8. AI服务器构成及形态

以浪潮NF5688M6 服务器为例,其采用NVSwitch实现GPU跨节点P2P高速通信互联。整机8 颗 NVIDIAAmpere架构 GPU,通过NVSwitch实现GPU跨节点P2P高速通信互联。配置 2颗第三代Intel(R) Xeon(R) 可扩展处理器(Ice Lake),支持8块2.5英寸NVMe SSD orSATA/SAS SSD以及板载2块 SATA M.2,可选配1张PCIe 4.0 x16 OCP 3.0网卡,速率支持10G/25G/100G;可支持10个PCIe 4.0 x16插槽, 2个PCIe 4.0 x16插槽(PCIe 4.0 x8速率), 1个OCP3.0插槽;支持32条DDR4RDIMM/LRDIMM内存,速率最高支持3200MT/s,物理结构还包括6块3000W 80Plus铂金电源、N+1冗余热插拔风扇、机箱等。

目前按照GPU数量的不同,有4颗GPU(浪潮NF5448A6)、8颗GPU(Nvidia A100 640GB)以及16颗GPU(NVIDIA DGX-2)的AI服务器。

9. AI服务器产业链

AI服务器核心组件包括GPU(图形处理器)、DRAM(动态随机存取存储器)、SSD(固态硬盘)和RAID卡、CPU(中央处理器)、网卡、PCB、高速互联芯片(板内)和散热模组等。

  • CPU主要供货厂商为Intel
  • GPU目前领先厂商为国际巨头英伟达,以及国内厂商如寒武纪、海光信息等
  • 内存主要为三星、美光、海力士等厂商,国内包括兆易创新等
  • SSD厂商包括三星、美光、海力士等,以及国内江波龙等厂商
  • PCB厂商海外主要包括金像电子,国内包括沪电股份、鹏鼎控股等
  • 主板厂商包括工业富联,服务器品牌厂商包括浪潮信息、紫光股份、中科曙光、中兴通讯等

10. AI服务器竞争格局

IDC发布的《2022年第四季度中国服务器市场跟踪报告Prelim》显示,前两名浪潮与新华三的变化较小,第三名为超聚变,从3.2%份额一跃而至10.1%,增幅远超其他服务器厂商。Top8服务器厂商中,浪潮、戴尔、联想均出现显著下滑,超聚变和中兴则取得明显增长。其中,浪潮份额从30.8%下降至28.1%;新华三份额从17.5%下降至17.2%;中兴通讯(000063)从3.1%提升至5.3%,位居国内第5。联想降幅最为明显,从7.5%下降至4.9%。

据TrendForce集邦咨询统计,2022年AI服务器采购占比以北美四大云端业者Google、AWS、Meta、Microsoft合计占66.2%为最,而中国近年来随着国产化力道加剧,AI建设浪潮随之增温,以ByteDance的采购力道最为显著,年采购占比达6.2%,其次紧接在后的则是Tencent、Alibaba与Baidu,分别约为2.3%、1.5%与1.5%。

国内AI服务器竞争厂商包括:浪潮信息、新华三、超聚变、中兴通讯等。

服务器主要厂商包括:工业富联、浪潮信息、超聚变、紫光股份(新华三)、中兴通讯、中科曙光。AI服务器目前领先厂商为工业富联和浪潮信息,浪潮信息在阿里、腾讯、百度AI服务器占比高达90%。紫光股份在 GPU 服务器市场处于领先地位,有各种类型的 GPU 服务器满足各种 AI 场景应用。特别针对 GPT 场景而优化的 GPU 服务器已经完成开发,并取得 31 个世界领先的测试指标,该新一代系列 GPU 服务器将在今年二季度全面上市。中兴通讯近年服务器发展较快,年初推出AI服务器G5服务器,此外在布局新一代AI加速芯片、模型轻量化技术,大幅降低大模型推理成本。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号
AI算力产业链及竞争格局分析