问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

AI大模型与算力需求:从训练到推理的全面解析

创作时间:
作者:
@小白创作中心

AI大模型与算力需求:从训练到推理的全面解析

引用
1
来源
1.
https://www.baiheshu.com/121016.html

AI大模型的快速发展引发了对算力需求的广泛关注。本文将介绍如何通过AI大模型的参数量、Token数以及训练时间来评估所需的算力,包括训练和推理两个维度。

AI大模型的关键参数

在讨论不同大模型的规模时,我们经常会看到诸如LLaMA-65B、GPT3-175B、GLM-130B这样的描述。其中的"B"代表十亿(Billion),例如65B表示大模型的参数量为650亿。除了参数量,训练时长也是衡量大模型训练难度的重要因素。下图展示了几个常见大模型的参数量、训练时长和所需的GPU卡规模。

根据AI大模型参数量&时长计算训练所需算力

要根据大模型客户的需求计算所需的算力大小,进而计算出所需GPU的集群规模(卡数),可以使用以下公式:

  1. 第一个公式:模型的参数量、Token量和相关系数相乘再除以训练所需时长得出理论的算力需求量。
  2. 第二个公式:算力需求的大小与单卡算力的实际性能表现相除得出GPU的卡数,从而可以推算出GPU服务器的集群规模。

以GPT-3为例,如果采用A100的GPU卡进行训练,30天的训练时间需要约865.6张GPU卡。而GPT-4如果采用A100进行训练,100天的训练时间则需要约2.3万张GPU卡。

根据AI大模型参数量&Token数据计算推理所需算力

大模型的训练目的是为了推理,推理是大模型落地的核心。以下是计算推理所需算力的三个公式:

  1. 公式一:根据模型的访问量、平均提问数量以及每次提问的Token量计算出推理所需的单日总Token数。
  2. 公式二:根据单日总的Token数和模型参数量以及系数相乘后再除以每天的秒数得出每秒推理是算力需求。
  3. 公式三:再根据每秒是算力需求和单卡GPU的所能发挥的理论性能相除得出GPU卡的数量。

以ChatGPT的推理为例,计算结果显示需要约1万张A100 GPU卡。

需要注意的是,以上内容仅供参考,实际训练和推理所用的GPU卡可能有所不同。目前,训练更多使用H100、H200等高性能GPU,而推理则更多使用4090等GPU。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号