液体冷却技术代表着未来的数据中心
液体冷却技术代表着未来的数据中心
随着生成式人工智能的快速发展,数据中心的能源需求和散热问题日益凸显。传统的空气冷却技术已难以满足高密度计算的需求,液体冷却技术作为创新解决方案应运而生。本文将探讨液体冷却技术在数据中心中的应用及其重要性。
过去几年,随着各大企业竞相挖掘其潜力,生成式人工智能受到了几乎普遍的关注。然而,尽管人们对此十分热衷,但重要的是要考虑维持这种技术所需的能源需求。
构建和训练生成式人工智能模型需要大量能源,这导致功耗急剧增加,对密集计算资源的需求也随之增加。数据中心处于这一指数增长的最前沿,预计随着这一趋势的持续,数据中心将使用更多的电力。为生成式人工智能提供动力的硬件,尤其是 GPU,是高度耗能的,迫切需要创新的解决方案来管理这些系统产生的热量。
为什么空气冷却被暴露
为人工智能平台提供动力的耗能型 GPU 所需的能源是 CPU 的 5 到 10 倍,因为晶体管数量更多。这已经对数据中心产生了影响。还有一些新的、具有成本效益的设计方法,结合了 3D 硅堆叠等功能,使 GPU 制造商能够在更小的空间内安装更多组件。这又增加了功率密度,意味着数据中心需要更多的能源,并产生更多的热量。
另一个同时出现的趋势是最新芯片的 TCase(即外壳温度)稳步下降。TCase 是 GPU 等芯片表面的最高安全温度。这是制造商设定的限制,以确保芯片运行平稳,不会过热,或需要节流,从而影响性能。在较新的芯片上,TCase 从 90 到 100 摄氏度降至 70 或 80 摄氏度,甚至更低。这进一步推动了对冷却 GPU 的新方法的需求。
密度也很重要。液体冷却使我们能够在高密度机架中安装大量设备。借助液体冷却,我们可以填充这些机架,从而减少数据中心总体空间和房地产的占用,这对 AI 来说非常重要。
随着生成式人工智能的能源需求不断增加,液冷系统将成为满足高能量密度要求的重要解决方案。这些系统不仅可以帮助企业优化能源效率,还可以使数据中心能够处理推动未来发展的越来越多的 GPU。鉴于生成式人工智能的巨大电力需求,空气冷却已成为一种不合适的选择。这项技术的出现使数据中心成为人们关注的焦点,并比以往任何时候都更加暴露,然而,这是一个采取行动并采用能够应对这一挑战的创新解决方案的绝佳机会。
由于这些因素,当涉及到人工智能时,空气冷却不再起作用。这不仅仅是组件的功率,还有数据中心中这些组件的密度。除非服务器比以前大三倍,否则需要高效散热。这需要特殊的处理,液体冷却对于支持人工智能的主流推广至关重要。
一种新兴趋势
液体冷却越来越受欢迎。公共研究机构是首批用户之一,因为它们通常需要最新、最先进的数据中心技术来驱动高性能计算和人工智能。然而,在新技术尚未在市场上建立之前,它们对采用新技术的风险往往不那么担心。
企业客户更厌恶风险。他们需要确保他们部署的东西能立即带来投资回报。我们现在看到越来越多的金融机构——由于监管要求而往往保守——与汽车行业一起采用这项技术。
后者是开发新车的HPC系统的大用户,现在也是托管数据中心的服务提供商。生成式人工智能具有大多数企业无法在其场所内满足的巨大电力需求,因此他们需要去托管数据中心,去能够提供这些计算资源的服务提供商那里。这些服务提供商现在正在向新的GPU架构和液体冷却过渡。如果他们部署液体冷却,他们的运营效率会高得多。
为什么液体冷却至关重要
液体冷却在单个服务器和大型数据中心都能提供结果。通过从带风扇的服务器过渡到带液体冷却的服务器,企业可以在能耗方面大幅降低。但这仅限于设备级别,而外围冷却(从数据中心散热)需要更多的能量来冷却和散热。这可能意味着数据中心使用的能源中只有三分之二用于计算,这是数据中心设计的任务。其余的用于保持数据中心的凉爽。
电力使用效率(PUE)是衡量数据中心效率的指标。您将运行整个数据中心(包括冷却系统)所需的功率除以IT设备的功率要求。对于通过液体进行优化的数据中心,其中一些数据中心的PUE为1.1,有些甚至为1.04,这意味着边际能量非常少。这甚至是在我们考虑利用从机架中流出的热液体或水并将热量重新用于做一些有用的事情之前,比如在冬天为建筑物供暖,我们今天看到一些客户正在这样做。