问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI算力芯片深度解析:CPU、GPU、ASIC、FPGA的技术对比与应用

创作时间:
作者:
@小白创作中心

AI算力芯片深度解析:CPU、GPU、ASIC、FPGA的技术对比与应用

引用
1
来源
1.
https://xueqiu.com/2785487655/324602361

随着人工智能技术的快速发展,AI算力芯片成为支撑AI应用的关键基础设施。本文深入分析了CPU、GPU、ASIC和FPGA在AI计算领域的应用特点,探讨了它们在AI服务器中的协同工作方式,并展望了未来发展趋势。

前言

AI服务器是AI智算中心的核心计算单元,主要用于深度学习训练、AI推理、高性能计算(HPC)、大数据分析等任务。它们整合了高性能计算芯片(CPU、GPU、ASIC等),提供强大的计算能力,以支撑AI模型训练、推理部署和大规模数据处理。

下面写正式内容之前,先用通俗意义上的人话说一下自己对整个演变过程的理解:CPU就像是一个大学生,会解微积分,会做线性代数,是个多面手,面对单一复杂任务(单线程,高性能任务)可以高效完成。而GPU则像是一群小学生,指挥做简单的加法和乘法,但是可以同时并行做大量简单重复的运算。而AI主要涉及大量,重复的简单矩阵运算(Y=W×X+B)。因此GPU在AI领域计算显著优于CPU。同样的类比,ASIC就像是一个博士甚至大学教授,深耕某一特定领域,又忘记了一些通用的高等数学技能,转而在某个特定的小领域独树一帜。FPGA则是介于通用芯片(CPU, GPU)与ASIC之间。

英特尔早期以x86架构主导PC和服务器的成功让英特尔忽视了GPU,英特尔的策略一直是通过CPU+集成显卡(iGPU)来满足大部分用户需求,比如游戏、视频播放等。而当时的市场需求也确实主要是办公、上网、视频播放等,独立GPU还是一个比较小众的市场。早期的GPU主要用于图形渲染,而英特尔一直认为GPU只是用来处理显示任务的专用硬件,无法与通用计算相比。

但后来,随着NVIDIA和AMD推动GPGPU(通用计算GPU),尤其是CUDA和OpenCL的发展,GPU逐渐展现出在并行计算领域的巨大潜力,特别是在AI、科学计算、深度学习等领域。英特尔这时才意识到GPU不仅仅是画图的,还能用于高性能计算。2010年前后,随着深度学习的崛起,NVIDIA的GPU成为AI计算的主力,CUDA生态系统构建完成,谷歌、亚马逊、微软等大厂都开始采用GPU做AI训练。英特尔这时才意识到GPU的重要性,但此时市场已经被NVIDIA占领,AMD也有自己的GPU产品,英特尔的进入难度大。

在AI计算兴起的过程中,英特尔选择了另一条路——收购FPGA公司Altera(2015年),并大力发展ASIC,例如推出了Habana AI芯片,而不是重点发展GPU。这种战略选择让英特尔在特定AI任务(如深度学习推理)上有了突破,但在训练市场(需要GPU的地方)仍然处于劣势。这个错误让昔日的霸主英特尔已经跌到1000亿美金在被传卖身了,而乘势而上的英伟达已经高达3万多亿,是世界上最有价值的公司之一了,不禁让人唏嘘。ASIC领域大放异彩的博通也高达1万多亿美金。

正文

1. CPU(Central Processing Unit,中央处理器)

定义:通用处理器,负责协调和管理计算机的所有操作,是大多数计算任务的核心。

角色:负责任务调度、数据预处理、存储管理、系统控制,协调 AI 服务器的整体计算流程,协调 GPU/ASIC/NPU 进行 AI 计算,处理数据加载、模型调度、任务分发,但不擅长 AI 计算。

优势

  • 通用性强:能处理复杂逻辑、多任务调度、分支预测等多样化任务。
  • 灵活性高:支持广泛的操作系统和软件。
  • 低延迟:适合需要快速响应的单线程任务(如数据库查询)。

劣势

  • 并行能力弱:核心数量有限(通常几十核),难以高效处理大规模并行计算。
  • 功耗较高:在高负载下能耗显著。

典型场景:

  • 服务器日常任务(如Web服务、数据库管理)。
  • 单线程密集型任务(如代码编译)。

国内代表厂商:海光信息(x86服务器CPU),华为海思鲲鹏 920/930(ARM服务器CPU),阿里巴巴倚天710 (ARM服务器CPU),中兴通讯定海芯片(服务器 CPU(ARM 架构)+ DPU(数据处理单元))等。

2. GPU(Graphics Processing Unit,图形处理器)

定义:最初设计用于图形渲染,后因高度并行架构被广泛用于加速计算。

角色:主要用于AI训练和高性能计算(HPC),适用于 AI 训练阶段,但 AI 推理阶段通常不如 ASIC 高效。

优势

  • 大规模并行计算:拥有数千个计算核心,适合处理矩阵运算(如深度学习、科学模拟)。
  • 高吞吐量:擅长批量处理数据(如训练神经网络、视频编码)。

劣势

  • 功耗高:高端GPU(如NVIDIAH100)功耗可达数百瓦。
  • 成本高:硬件和配套软件(如CUDA)投入大。
  • 不适合逻辑复杂任务:分支判断能力弱于CPU。

典型场景:

  • AI模型训练(如深度学习)。
  • 高性能计算(HPC)、3D渲染。

国内代表厂商:景嘉微JM,摩尔线程MTT,华为昇腾,百度昆仑芯,黑芝麻智能-华山系列 AI 计算 GPU

3. ASIC(Application-Specific Integrated Circuit,专用集成电路)

定义:为特定任务定制的芯片,TPU、NPU、LPU等一众均属于ASIC的子类(此处分类还有些模糊的便捷,下一篇单独阐述ASIC。)

角色:超高效 AI 推理芯片,主要用于AI加速推理,部分 ASIC 也能用于 AI 训练。针对特定 AI 任务优化,如自动驾驶、搜索推荐、语音识别等

优势:

  • 性能极致:针对单一任务优化,速度和能效远超通用芯片。
  • 超低功耗:电路设计高度精简。

劣势:

  • 开发成本高:需数千万美元投入和长周期验证。
  • 完全不可编程:任务变更后芯片即失效。

典型场景:

  • 比特币矿机(如比特大陆的ASIC矿机)。
  • 高频交易、密码学加速。

国内代表厂商:寒武纪思元,百度昆 仑芯,华为 昇腾,中兴通讯珠峰,黑芝麻华山,地平线 Journey

4 FPGA(Field-Programmable Gate Array,现场可编程门阵列)

定义:硬件电路可通过编程重新配置的芯片,介于通用芯片(如CPU)和固定功能ASIC之间。

角色:FPGA 介于 GPU 和 ASIC 之间,提供可编程的硬件加速,适用于AI训练、推理和定制 AI 计算。

优势:

  • 灵活性:可动态调整电路逻辑,适配不同任务(如信号处理、加密)。
  • 低延迟:并行硬件加速,速度接近ASIC。
  • 开发周期短:无需流片,直接通过编程实现功能。

劣势:

  • 功耗较高:相比ASIC能效比低。
  • 开发难度大:需硬件描述语言(如Verilog)编程。

典型场景:

  • 通信基站信号处理(如5G)。
  • 高频交易、实时视频转码。

国内代表厂商:复旦微电子 FPGA AI 加速器,紫光国微AI 推理 FPGA。

4.总结对比

5.协同工作

在AI服务器中,这些芯片通常协同工作:

  • CPU负责调度任务:任务管理、数据预处理、模型部署。协调 GPU/FPGA/ASIC 进行计算。
  • GPU负责 AI 训练:进行大规模神经网络训练(如 GPT-4、DALL·E)。
  • ASIC负责 AI 推理:运行训练好的 AI 模型,进行高效 AI 计算(如GoogleTPU)。
  • FPGA负责定制计算:在某些任务中提供特定优化,如边缘 AI、金融计算。

6. AI服务器混合架构

7. 趋势展望

长期看,随着大模型的完善与普及,成本优化,AI推理计算,边缘计算会爆发式增加,带来增量的投资机会!

本文原文来自雪球App

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号