CPU和GPU的发展现状
CPU和GPU的发展现状
在人工智能时代,GPU已成为整个行业最具主导地位的芯片之一。本文将从CPU和GPU的概念、发展历史、竞争格局以及中美在AI芯片领域的现状对比等多个维度,深入探讨这一领域的最新发展动态。
整体介绍
CPU作为通用处理器几乎处理所有计算任务,那个时代的显卡有助于加快应用程序中图形的绘制速度。在人工智能时代,GPU却成为了整个行业最具主导地位的芯片之一。所有人都抢购GPU,龙头企业也因此赚的盘满钵满。
下面会从各个领域和角度介绍和分析当前AI发展现状。从算力产业链来说,芯片属于上游产品,而芯片与其它硬件组成服务器,也就是产业链中游,服务器又与其它设备共同组成下游的数据中心。下面梳理AI算力芯片,看看为什么 当今AI时代GPU占据了主导地位以及我国目前的发展情况与相关企业。
CPU
概念
CPU是中央处理器(Central Processing Unit),是计算机的运算核心和控制核心。CPU包括运算器(算术逻辑单元ALU、累加寄存器、 数据缓冲寄存器、状态条件寄存器)、控制器(指令寄存器IR、程序计数器PC、地址寄存器、 指令译码器ID、时序、总线、中断逻辑控制)、高速缓冲存储器(Cache)、内部数据总线 、控制总线、状态总线及输入/输出接口等模块。
发展历史
在CPU的发展历史中,为了进一步提升它的运算能力人们提出了多线程(Multithreading)和多核(Multi-core)的设计方法。多线程指的是程序可以同时执行多个任务,也就是电脑可以同时做不同的事。例如,一个线程可以处理用户输入,同时另一个线程可以执行后台计算,还有一个线程可以处理网络通信。即使一个线程被阻塞,其他线程仍然可以继续工作,从而提高了整体的效率和程序的响应性。多核则是增加CPU内的处理单元,使CPU可以并行处理多个指令流。
可以按指令集和应用领域对CPU进行分门别类,指令集是 CPU 所执行指令的二进制编码方法,是软件和硬件的接口规范。按照指令集可分为 CISC复杂指令集和 RISC精简指令集两大类,在上一篇文章中做过详细介绍,这里不再赘述。CPU 按照下游应用领域还可分为通用微处理器(MPU, Micro Processor Unit)和微控制器(MCU, Micro Controller Unit),MPU便是我们熟悉的应用于服务器、桌面(台式机/笔记本)、超级计算机等中的CPU。MCU是用于控制类应用的低性能、低功耗CPU。MCU的主频一般低于 100MHz,一般是用在智能制造、工业控制、智能家居、遥控器、汽车电子、机器手臂的控制等。
竞争格局
从竞争格局上看,英特尔和AMD占据了大部分市场份额,其中英特尔作为CPU的缔造者拥有绝对主导地位。从服务器CPU角度看,2022年英特尔与AMD合计占到全球90%的市场份额,不过近两年AMD不断抢占英特尔份额。从MPU整体上看,英特尔占据半壁江山,移动设备端苹果和高通分别拥有13%和9%的份额。从MCU上看则是日韩系厂商份额较多。
GPU
概念
作为通用处理器,以前几乎所有的计算任务都由CPU处理,不过到了八十年代末九十年代初,越来越多的图形渲染处理需求催生了GPU的诞生,黄仁勋正是在这一时期创立的英伟达,专注于GPU的研发与制造。
GPU是图形处理器(Graphic Processing Unit),又称为显示芯片(显卡),最初是作为专用处理器来辅助CPU进行图像和图形相关运算工作的。从结构上来说,CPU的设计是低延迟的串行计算模式,拥有少数强大的ALU算数逻辑单元高效的挨个完成每个任务。而GPU侧重于并行计算(Parallel Processing),拥有大量的ALU可以同时处理大规模的简单计算。简单来说,CPU的工作模式好比一位博士单独去解一道复杂的高数题,而GPU则如同一百名高中生一起计算加减、乘除法。
CPU已经如此强大了,为什么还需要GPU呢,或者说为什么在图形处理和如今的人工智能浪潮下为什么GPU这个以前CPU的小弟成为了王者呢?首先在图像处理领域,图片是由一个个像素点组成的,比如一张1080p的图片实际上是由1920x1080= 207万像素点组成,但是每个像素点的计算并不复杂。由CPU加载图片时是一个一个的单独运算每个像素点,而使用GPU的话则是并行计算,由多个ALU同时处理每个像素点,从而实现快速处理全部像素点。
在人工智能大模型中同理,大模型可以有各种不同结构,但其背后的本质都是基于神经网络的深度学习,它的核心运算需求并不高,主要就是累加和累乘的运算,但是由于模型参数巨大、网络层数复杂,因此需要运用大规模并行计算,这也就是为什么GPU如今独领风骚。
由黄仁勋于1993年创立的英伟达可谓是GPU的奠定者和缔造者,1999年英伟达推出了被誉为世界上第一款真正的GPU的GeForce 256,并凭借此产品获得巨大成功。然而,作为专用处理器,传统 GPU 应用局限于图形渲染计算,在面对非图像并涉及大量并行运算的领域,比如 AI、加密解密、科学计算等则更需要通用计算能力。为了提高GPU的通用性,英伟达于2006年推出的CUDA开发环境构造了其强大的生态护城河,自此GPGPU(General Purpose GPU)时代开启。
CUDA
CUDA(Compute Unified Device Architecture,统一计算设备架构) 可以让开发者能够用类似 C 语言的方式编写程序,让 GPU 来处理计算密集型任务。简单来说,CUDA平台是英伟达提供给开发者的编程工具,包含了一系列工具函数,有各种功能,同时CUDA可以让开发者调用成千上万的 GPU 核心同时工作,进一步提高计算速度。随着时间推移,CUDA被应用在包括物理化学、生物医药、人工智能等众多行业领域,其开发者生态也不断丰富,同时由于CUDA只适用于英伟达的GPU,它成为了英伟达主导GPU的杀手锏。类似于CUDA的还有针对AMD的GPU使用的ATIStream,以及两款开源平台ROCm和OpenCL,这两者可实现不同生态GPU的相互迁移。
发展历史
在GPU发展历史上,除了CUDA平台外,微架构迭代与芯片制程升级是单卡GPU性能提升的关键途径。GPU 的微架构是用以实现指令执行的硬件电路结构设计,不同的微架构设计会对 GPU 的性能产生决定性的影响。以英伟达为例,从最初 Fermi 架构到现在的Hopper架构和最新的Blackwell架构,英伟达平均买两年更新一次架构,每一阶段都在性能和能效比方面得到提升,同时引入了新技术,如 CUDA、GPU Boost、RT 核心和 Tensor 核心等,作为行业第二的AMD也紧跟英伟达更新其微架构。
对比当前主流的顶级GPU英伟达H100和AMD的MI250X可以看出,二者在硬件层面上的差距并不大,真正能够使英伟达维持80%市占率达的其实是软件层面的CUDA平台,由于多年以来众多主要开发者都使用基于CUDA的英伟达GPU,其形成的广泛生态和粘性极大的增加了进行更换厂商的总成本,同时这也给远在大洋彼岸的国内厂商追赶英伟达造成更大的挑战。因此英伟达不仅仅是我们印象中的卖芯片的硬件公司,它也是一家强大的软件公司。
ASIC & FPGA
ASIC
由于目前对于芯片的需求爆发主要还是来自AI领域,针对AI计算场景设计的ASIC从性能、能效、成本均极大的超越了通用芯片,是GPU的潜在竞争对手。目前全球 ASIC 市场并未形成明显的头部厂商,由于 ASIC 需要定制且开发周期长,大多为云计算/互联网等大厂有资金与实力进行研发,且仅当其定制化应用场景市场空间足够大时量产ASIC才能实现丰厚利润。目前市场上主流 ASIC 有 TPU 芯片、NPU 芯片、VPU 芯片以及 BPU 芯片,它们分别是由谷歌、寒武纪、英特尔以及地平线公司设计生产,预计未来将有更多诸如微软、亚马逊、百度、阿里等云计算巨头加入定制自家的ASIC。
FPGA
除了ASIC外,FPGA (Field-Programmable Gate Array,现场可编程门阵列)也是一种专用芯片,其最大特点是现场可编程性。CPU、GPU以及各类 ASIC 芯片在制造完成后,其芯片的功能就已被固定,而 FPGA 芯片在制造完成后,用户可以根据自己的实际需要,将自己设计的电路通过 FPGA 芯片公司提供的专用 EDA 软件对 FPGA 芯片进行功能配置,从而将空白的 FPGA 芯片转化为具有特定功能的集成电路芯片。FPGA 芯片由可编程的逻辑单元(Logic Cell,LC)、输入输出单元(Input Output Block,IO)和开关连线阵列(Switch Box,SB)三个部分构成。
中美现状对比
中国和美国在AI芯片上的差距。首先,无论是站在国家安全、自主可控的角度还是受美国卡脖子技术禁令影响的角度,国产自研替代虽然艰难但一定是未来最可靠甚至是唯一的出路。
从算力、算法和应用层出发,中国厂商和美国同行相比都有一定差距。在算力端存在芯片性能及生态差距,在芯片的生产端核心环节如芯片的设计、流片等也均由海外主导;在算法端,海外在基础研究方面较为领先,如谷歌发布底层架构 Transformer ;应用端,海外头部应用多已成为行业标准,拥有较为良好的用户基础,有助于 LLM+产品的快速落地,如办公领域的微软 Office 产品。
困境
不过算法和应用端的差距不大,而算力层面的差距是最关键的。一方面算力端的核心环节均受海外主导,很难绕开,而且海外头部算力厂商围绕自身产品形成了包含应用、算法的生态壁垒,更加难以突破。另一方面,算力处于基础支撑地位,直接影响模型的落地和应用的推广进度。美国政府为了限制中国AI的发展更是出台政策禁止了美国企业将高端芯片卖给国内企业,自2022年以来美国已多次出台出口限制法案,限制力度逐步提升。去年10月的最新法案中以总处理性能 TPP(Total Processing Performance,即计算速度*字节长度)和性能密度 PD(Performance Density,即每平方毫米的 TPP)为要求,TPP>4800 的芯片、TPP>1600 且 PD>5.92 的芯片属于高性能芯片,不再被允许出口。
在这个背景下,我们来对比下中美主要AI芯片发展进度。国内的算力产业整体上可分为三大体系:以鲲鹏+昇腾为核心芯片的Arm服务器华为系,以海光为核心芯片、中科曙光为整机厂的x86服务器中科院系,以飞腾为核心芯片、中国长城为整机厂的Arm服务器中电子系。
在CPU领域,国内企业经过多年发展与积累形成了海光信息、龙芯中科、华为、飞腾、兆芯和申威六大厂商齐头并进的局面,其中华为和海光性能最好,可对标英特尔与AMD的顶级CPU产品,飞腾和申威的芯片则主要应用于国家超算中心如天河、神威。从三大运营商的采购情况也可以看出,2022年采购中国产CPU服务器占比达到37%,其中海光占比19.66%,华为鲲鹏占比17.41%。
差距
GPU方面,由于GPU领域英伟达占据绝对领导地位,国内厂商目前在硬件和生态上都有较大差距。国内GPU最强的是华为,昇腾310为推理芯片,昇腾910为训练芯片。昇腾 910 芯片采用7nm制程,FP16 算力达到 320TFLOPS、INT8 算力达到 640TOPS,与 NVIDIA A100 80GB 版本旗鼓相当,组网集群上限达到18000张(英伟达A100为16000,H100为50000)。不过与英伟达H100和今年刚刚发布的B100相比存在1-2代差距。
发展趋势
最后来说说AI芯片的发展趋势有哪些,由于未来应用于大模型推理的需求将远超过训练需求,AI芯片也朝着更高性能、更低功耗和更靠近边缘和端侧发展。在性能提升方面,单个处理器层面的提升主要来自过去几十年都遵循的摩尔定律,也就是芯片制程的提升,以及设计层面的微架构迭代。然而当晶体管大小接近 1nm 左右时,与 0.1nm 的原子直径尺寸量级接近,量子隧穿引起的晶体管漏电效应将愈发明显,以至于影响芯片正常工作。微架构方面,英伟达于今年三月GTC大会上最新推出的Blackwell架构也展现出架构更新放缓的趋势。
在这个背景下,单张GPU的性能已接近瓶颈,因此未来的发展必然聚焦于多张卡的联合上。在芯片封装层面,通过Chiplet和CoWos等先进封装技术将多颗芯片与内存等模块封装在一起。在系统层面,通过卡间互联、服务器间互联以及数据中心集群间互联等方式集合更多的GPU。
此外,随着越来越多的推理需求出现,AI芯片也将越来越多的从云端转移到边缘和端侧,也会出现更多低功耗的端侧芯片,比如现在的自动驾驶、AI PC和AI手机等概念,都需要将算力直接部署到汽车、电脑或手机上。