在 AI 应用中如何充分利用GPU?合适的 GPU 选择指南
在 AI 应用中如何充分利用GPU?合适的 GPU 选择指南
在AI应用中,如何充分利用GPU是一个关键问题。本文将从VRAM、Tensor Core、FP16与FP8精度等多个维度,为您详细介绍如何选择合适的GPU,以及企业级GPU的扩展和连接方式。
最重要的因素
首先,你需要有足够的VRAM来适应你的模型。这应该是你首先要考虑的。
Tensor Core用于矩阵乘法,这对于任何AI应用都至关重要。从2017年的V100开始,专业GPU中引入了Tensor Core,2018年的GeForce 20系列也引入了消费级GPU。捷智算平台上的绝大多数GPU都配有Tensor Core,那么问题就在于有多少个呢?
事实上,不是。Tensor Core非常快 - 快到大多数时候都没有得到充分利用,具体取决于批处理大小。因此,瓶颈通常是带宽,包括内存和互连(GPU之间)。
FP16 与 FP8
FP8用8位表示数字,而不是之前标准的FP16的16位。最新的GPU(例如H100和即将推出的B100)支持针对FP8的优化。
精度较低时,模型可以使用较低的VRAM和带宽运行,因此计算量也较少。但是,您必须小心,不要显著降低模型性能。如果您已经测试过可以从FP8中受益,或者有理由认为可以受益,请确保您使用的是支持FP8的GPU。
最佳推理精选
消费级显卡的性价比通常更高,因为企业级GPU的标价明显更高。大多数云提供商不提供消费级GPU,但捷智算平台提供。
如果您可以将模型装入24GB VRAM卡中,那么3090和4090的推理价值将非常高。超过24GB,您将被迫进入企业领域,而价值却无法接近。如果您尚未确定特定模型,那么将其装入24GB VRAM卡中将大大降低您的推理成本。
除此之外,下一个价值等级是较低级别的企业卡,例如V100 32GB、A6000(48GB)、L40(48GB)和6000 Ada(48GB)。
然后,你终于有了A100 80GB和H100。如果你需要这么高的性能来进行推理,你肯定会知道的。总的来说,A100提供了更好的推理价值,而H100最适合训练。
企业 GPU
扩展计算:NVLink 和 InfiniBand
搭载NVLink的NVIDIA A100
由于GPU必须互连且受带宽限制,因此将服务器从1个GPU扩展到8个GPU并不会自动实现8倍性能。现代GPU支持更快的互连,因此对于V100等较旧的GPU,这种下降会更加明显。
在捷智算平台上,如果您租用2x、4x或8xH100/A100服务器,您的VM会在可用时自动通过NVLink互连。
NVLink连接服务器内的GPU,而InfiniBand连接多台服务器。预计InfiniBand的价格会略有上涨,约为5-10%。请记住,除非您正在训练非常大的模型,否则这并不是必需的。
对于推理,我们已经看到,运行每个虚拟机4个GPU且每个8xH100节点运行两个实例的开源模型可获得最佳性能,优于运行2个GPU或8个GPU的模型。此外,我们已经看到,使用Triton推理的TensorRT-LLM的吞吐量大约是vLLM的两倍。
SXM 与 PCIe(仅限 H100、A100 和 V100)
NVIDIA A100 SXM4服务器
SXM是NVIDIA专有的外形尺寸,可提高电力输送、冷却和带宽。仅提供PCIe的云提供商通常不会指定他们的H100是SXM还是PCIe。这是因为PCIe的性能要低得多,最多低25%!这是因为H100 PCIe的内存带宽仅为2TB/s,而SXM5的内存带宽为3.35TB/s。总体而言,SXM将GPU紧密地集成在服务器中,因此它们可以有效地作为单个超大GPU运行。对于A100和V100,性能上没有太大差别,所以只要选择更便宜的就行。