问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

引领人工智能时代的智慧之核——AI芯片解码

创作时间:
作者:
@小白创作中心

引领人工智能时代的智慧之核——AI芯片解码

引用
1
来源
1.
https://www.hi-hone.com/h-nd-90.html

随着人工智能技术的迅猛发展,AI芯片作为人工智能的基石,其重要性日益凸显。本文将从AI芯片的产生背景、定义、分类、技术路线、设计流程及性能衡量指标等多个维度,为您全面解析这一引领人工智能时代的智慧之核。

AI 芯片概述

AI芯片产生的背景

自上个世纪五十年代人工智能技术诞生以来,随着近十年深度学习等技术的快速发展,人工智能技术进入了广泛的应用阶段。

在AI发展的早期阶段,AI的任务通常是在传统的通用处理器上运行。但当需要进行3D图形运算的工具和软件在浮点运算上的需求剧增时,通用处理器如CPU在算力和算法上的瓶颈就逐渐浮现。

于是,诞生了在浮点运算和并行运算更具优势的GPU(图形处理器)。GPU具有更多的处理核心和更高的内存宽带,能够同时处理大规模数据和计算密集型任务,加速深度学习模型的训练和推理过程。NVIDIA研发的GPU在保留传统图形渲染能力的同时,增加了对通用计算和神经网络运算的能力,并称之为GPGPU。2006年,NVIDIA推出了专门针对其GPU进行并行运算的CUDA架构,这个架构逐渐成为AI计算的主要选择。

在GPT-2之前的模型阶段,GPU内存尚能满足AI大模型的需求,但随着Transformer模型的发展和应用,平均每两年AI模型大小就增长近240倍,增速超过了GPU内存的增长。GPU用来执行AI算法时,其内部的大量逻辑对AI算法而言是完全无用武之地的,而且GPU功耗非常高。

显然,GPU对AI大模型而言,既不具备最优的性价比,也无法满足大模型算力的需求。在此基础上,更高性能、更低功耗以及更高效率的AI芯片应运而生并崛起。

什么是AI芯片?

AI芯片并没有一个标准严格的定义,广义层面而言,凡是面向人工智能应用的芯片都可以称之为AI芯片,它是承载计算功能专门用于加速人工智能计算任务的基础部件。

AI芯片涵盖了两个领域的内容:一是计算机领域,即算法和模型;二是半导体芯片领域,即将算法在硅片上实现变成能与软件结合的最终产品。

站在算力产业链角度来看,AI芯片属于上游产品,为中游的服务器/网络设备、下游的数据中心/云服务提供支持。

AI芯片产业分类:《数据中心产业图谱报告(2022)》

如果站在人工智能产业链的角度看,AI芯片就属于中游产品,向上为应用和算法提供高效支持,向下对终端设备、器件、电路、工艺和材料等提出需求。

短短数年时间,从深度学习加速器的商业化到基于神经网络形态计算的各类芯片的发展,AI芯片取得了巨大的进步,飞速发展成了一门新兴的产业,成为各大互联网巨头、研究机构争相角逐的科技前沿阵地。

目前,AI芯片已广泛应用在人脸识别、新能源汽车、机器人、自动驾驶、语音识别、智能安防、医疗诊断、智能家居等领域,为这些领域提供创新功能和增强性能。

AI 芯片的分类

根据部署位置可分为:云端AI芯片和端侧AI芯片。

云端AI芯片:部署在数据中心或云服务器中的芯片,主要用在深度学习大模型的训练阶段,用于大规模数据的处理和复杂的计算任务,常用在大规模数据分析、图像识别、语音识别、自然语言处理等领域。知名的云端AI芯片有NVIDIA Tesla GPU、Google TPU、Intel Nervana NNP、AMD Instinct GPU、FPGA等。

端侧AI芯片:主要应用在边缘计算和终端设备中,如智能手机、智能摄像头、智能音箱等,用于实时处理和推理数据,能够实现设备本地的智能决策和交互,提高终端设备的智能化水平及用户体验。知名的端侧AI芯片有NVIDIA Jetson系列、Google Coral系列、Intel Movidius系列、Qualcomm AI Engine、ARM Ethos系列等。

根据执行任务可分为:训练芯片、推理芯片。

训练芯片:专门用于深度神经网络模型训练阶段的处理器。在训练过程中,大量标记好的数据通过神经网络进行反向传播算法进行优化,以调整模型参数以最小化损失函数。NVIDIA Tesla V100 GPU、Google TPU等都可以用于训练深度学习模型。

推理芯片:专门用于执行经过训练的深度学习模型的推理阶段的处理器。在推理过程中,用已训练好的模型对新的输入数据进行预测或分类。Google Coral Edge TPU、Intel Movidius系列等都是用于在边缘设备上进行AI推理任务的。

AI 芯片的技术路线

目前AI芯片常用的技术路线包括:CPU、GPU、FPGA、ASIC、DSP等。

CPU

即中央处理器,适用于执行通用计算任务,如操作系统、应用程序执行等。

AI算法(包括深度学习算法)可在通用CPU上实现,用来执行数据预处理、模型训练和推理等。但CPU复杂的控制流适用于更常规的、基于规则的计算,对使用数据流的神经网络运行而言重要性就低多了。而且CPU是基于冯·诺依曼体系结构的处理器,摩尔定律的发展面临着物理结构上的限制,CPU的时钟频率增长将逐渐变得困难,无法满足AI算法不断增长的高吞吐量和低延时计算的需求。

在CPU的竞争市场上,Intel和AMD占据了全球半壁江山(2022年,二者的市场份额占全球份额90%以上)。Intel作为CPU的缔造者当仁不让拥有绝对的主导地位,但近几年AMD也在不断努力挤占Intel的市场份额。

GPU

即图形处理器,设计最初专用于图形渲染相关的浮点运算,GPU包含大量的处理单元(称为流处理器或CUDA核心),可以高效地处理三维几何数据、纹理映射、光照、阴影等图形任务,生成逼真的图像和动画。

GPU在并行计算方面具有相当出色的性能和能效,特别是在处理大规模数据集和执行大规模并行计算任务时,优势极为明显。AI模型的本质是基于神经网络的深度学习,核心运算是参数量巨大、网络层数超级复杂的累加、累乘的运算,因此GPU十分满足AI模型对高性能、高精度、高效率并行计算的需求。

GPU芯片广泛用于游戏开发、深度学习、数据分析等领域,主要的厂商有NVIDIA、AMD、Intel等。

FPGA

即现场可编程门阵列,原是为了解决定制电路的缺点而出现的集成电路,是一种“可重构”的芯片,具有模块化和规则化的架构,主要包括可编程的逻辑单元、输入输出单元和开关连线阵列几部分。

对比CPU、GPU、ASIC等其他类型的芯片,FPGA芯片最明显的优势是灵活性。FPGA芯片被制造出来后,无论是在运行之前还是运行期间,用户都可以根据实际的需求对硬件进行重构,重新集成重要的控制功能和整合系统模块。另一个明显的优势是FPGA芯片不需要制造时间,在EDA软件电路综合后就可直接进行测试,大幅缩短了上市的时间。

FPGA芯片常用于通信、图像处理、视频处理、电子学、机器学习和深度学习等,主要厂商有赛灵思、Intel、飞思卡尔等。

ASIC

即应用特定集成电路,是专门为特定的应用需求设计的、定制制造的专用AI芯片,包括数字电路、模拟电路和混合信号电路几部分。

在功耗、性能、能效、成本和算法的最佳实现等方面,ASIC芯片具有标准芯片无法比拟的优势,非常适合AI的各种应用场景。当然,ASIC芯片也存在一些缺点,比如设计制造周期长、开发成本高、一旦量产就无法改动芯片的硬件架构等。在AI算法日新月异的时代,这些缺点导致ASIC存在着巨大的商业风险,这也是中小型企业不敢涉足投入到SIC芯片完整的开发中的原因。

ASIC芯片主要应用在通信设备、计算机、消费电子、工业控制、汽车电子、医疗设备等领域,主要厂商有AMD、Bitmain、Broadcom、NVIDIA、Intel等。

DSP

即数字信号处理器,是专门用于数字信号任务处理的集成电路。

DSP芯片通过模拟前端将模拟信号转换为数字信号,再通过滤波、变换、编码等信号处理算法和运算单元对数字信号进行处理,处理好的数字信号最后通过数模转换器(DAC)转换为模拟信号输出到外部设备或其他系统。

DSP芯片常用于通信、音频处理、视频处理、医疗成像、雷达和无人机等领域,主要的厂商主要有西门子、TI、安森美、Intel等。

各类AI芯片比对表

发展至今,CPU、GPU等标准AI芯片种类繁多且价格低廉,已经达到了比较成熟的地步,但纵观全局,AI芯片最主要的应用还是在图像和语音方面,其中汽车行业占比最高,对于决策等更深入的应用还处于起步探索阶段。

随着科学技术的发展,“可进化”AI芯片成为研究的前沿。芯片是人工智能的大脑,这颗大脑发展的过程就是在不断模拟、贴近人类大脑的生物特性和运行机制,实现像人类一样自主学习、自主思考,甚至自行进化。这种“可进化”的能力会促成智能机器之间的相互学习和协调,让其自行获取更多的知识,随着学习能力的提升,某一天,智能机器的水平也许会超越人类的水平。

目前一些“可进化”AI芯片,比如脑类芯片、仿生芯片、基于忆阻器的芯片等方面的研究已经起步,但是要达到可大规模商用的程度还有漫漫长路要走。

AI 芯片的设计流程及性能衡量指标

AI芯片的设计是一个复杂系统的流程,涉及多个学科领域的专业知识,阶段也纷繁冗长。不同的项目会有所区别,但通用流程一般会包含以下几个阶段:

需求分析

明确定义产品的功能需求和性能指标,结合人工智能算法的特点和应用需求,综合分析所需的神经网络模型、计算能力、功耗限制、成本预算等。

架构设计

包括芯片的各个功能模块、内部连接结构、数据流和控制逻辑等,通常会引入专门的神经网络加速器用于高效地执行神经网络计算任务。

硬件设计

包括各个功能模块的电路、布局布线、时序优化等,需要重点考虑神经网络计算的并行性和数据流特征,重点设计神经网络加速器、存储单元、数据通路等硬件模块。

软件设计

包括驱动程序、编程接口、运行时序等,软件部分通常与硬件设计相结合,提供便于使用的接口和工具。

验证和仿真

包括逻辑仿真、时序仿真、功能验证等,确保满足规格和性能的要求。除此之外,还需进行神经网络模型的验证和性能评估,以确保能够正确执行各类型神经网络模型的计算任务。

物理设计

包括版图设计、布线、时序优化、封装和测试等。

制造和测试

涉及光刻、沉积、腐蚀、离子注入等系列工艺,最后进行芯片测试和质量通知。

衡量一颗AI芯片性能的最基本指标是芯片每秒的操作数,用以表示完成任务的速度。但这个指标远不能用来评估芯片的能效,还需要综合考虑:

时延

通常是指指令的执行时间或数据的传输时间,也可以是从输入数据到输出结果的处理时间。时延的大小影响AI芯片的性能和实时性。

功耗

芯片中计算单元的功率能耗,以及片上和片外存储器的功耗。

芯片成本/面积

这个指标在端侧比较重要,裸片的面积与成本有直接的关系。

精度

指识别或分类精度,体现了AI芯片的输出质量。

吞吐量

指单位时间能够有效处理的数据量或执行的操作数量,吞吐量的大小取决于芯片的设计、架构、工作频率及处理的任务等因素。

热管理

芯片工作时的温度会随着单位面积内晶体管数量的增加而提高,需要对热量进行有效的控制和管理,防止芯片因热导致性能下降、出现稳定性问题或遭到损坏。

可扩展性

指芯片的设计和架构能够方便地进行扩展以满足不同的需求和应用场景。

灵活性/适用性

指芯片的架构和算法可使用在不同的模型和任务上。

参考资料:

[1] 45家国产 AI 芯片厂商调研分析报告,顾正书,2022.

[2] 数据中心产业图谱研究报告(2022),中国信通院,2022.

[3] 一文深度梳理AI算力芯片,投研实习生,2024-04-24.

[4] “存算一体”是大模型AI芯片的破局关键?,科技云报道,2024-01-09.

[5] 万字解析:“AI芯片”通识,黄钊hanniman,2019-01-21.

[6] AI芯片:前沿技术与创新未来,张臣雄,2021-03.

[7] 一文读懂ASIC芯片,IC大家淡,2023-06-19.

[8] AI芯片简识,连诗路AI产品,2019-05-23.

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号