能耗挑战下,液冷技术助力AI基础设施升级
能耗挑战下,液冷技术助力AI基础设施升级
2025年,中国AI基础设施将迎来重要发展节点。F5公司预测,随着AI应用的快速普及,企业将面临前所未有的电力和冷却挑战。这一预测在最新研究中得到印证:72%的企业领导者意识到AI模型需要大量能源,但只有13%的企业在监控已部署AI系统的电力消耗。预计到2028年,中国AI基础数据服务市场规模将达到170亿元,未来五年的复合增长率高达30.4%。这一迅猛增长将带来巨大的电力需求,迫使企业寻求更高效的冷却解决方案。
液冷技术:破解电力和冷却难题的关键
液冷技术因其出色的散热效率而成为业界关注的焦点。据Omdia预测,到2024年底,数据中心液冷收入将超过20亿美元,到2028年将达到50亿美元。在中国,液冷技术已在多个大型数据中心得到应用,包括国家超级计算深圳中心、天府云数据产业基地等。
以国家超级计算深圳中心二期项目为例,该项目将建设持续计算能力达2Eflops、存储能力可扩展到1000P的E级计算机应用系统。项目采用曙光的浸没式液冷服务器,预计PUE值将低于1.04。同样,天府云数据产业基地采用冷板式液冷技术,结合水冷+自然冷却和余热回收,目标PUE值小于1.25。
AI电力消耗的驱动因素与解决方案
AI系统的电力消耗主要由高性能服务器中的高耗电GPU驱动。例如,Nvidia的Blackwell产品功耗高达1,200瓦。这种高能耗也带来了散热问题,迫使企业采用更有效的冷却系统。
为应对这一挑战,业界正从多个层面寻求解决方案:
芯片层面:更先进的芯片工艺,如3纳米制程或chiplet技术,可以在提升算力的同时降低功耗。英伟达最新Blackwell架构芯片采用台积电N4P工艺,集成2080亿个晶体管,相比上一代H100算力提升显著,且能效比提高约50%。
系统层面:通过编译优化和并行框架改进,提高单块芯片的效率。清程极智等创业企业正在这一领域进行积极探索。
算法层面:优化模型架构,采用更精简的设计,降低计算复杂度。混合专家模型(MoE)等新型架构受到越来越多关注。
应用层面:反思大模型的必要性,避免不必要的算力消耗。未来,随着大模型“祛魅”,业界可能会更多地采用更适合具体应用场景的模型。
未来展望:液冷技术的普及与AI基础设施的持续优化
尽管液冷技术在散热效率上展现出显著优势,但其广泛应用仍面临一些挑战。成本问题首当其冲,液冷系统的初期投资远高于传统风冷系统。此外,液冷技术的成熟度和市场认知度也有待提升。
然而,随着AI应用的持续增长,电力和冷却挑战将日益凸显。企业必须采取前瞻性的能源消耗策略,包括采用更高效的AI硬件、优化系统和算法,以及部署液冷等先进冷却技术。新建数据中心需要大量投资、规划许可和电力供应,这在短期内可能导致现有数据中心的需求增加,而这些数据中心可能并未设计为支持AI系统所需的高密度和电力需求。
微软是采用空气到液体冷却单元(CDU)方案的主要支持者,这种方案可以在不完全更新数据中心管道网络的情况下实现升级。然而,这种方案的密度支持能力有限,可能无法满足Nvidia Blackwell等最新AI基础设施的需求。在英国,Telehouse最近在其伦敦码头区园区推出了一个液冷实验室,展示了包括无水两相系统和每机柜最高90 kW的空气辅助液冷技术在内的多种技术。
在现有数据中心的改造方面,Galabov认为,由于成本问题,老式数据中心的密度提升可能有限。他提到一个Equinix站点通过改造将机架密度从10 kW提升到30 kW的例子,但这种改造涉及冷却单元、电源分配和机架内电源设备的全面升级。
AI计算的普及将推动数据中心电力密度的提升。这将带来一系列变化,包括向公用事业公司申请更多电力、采用现场自发电(如燃气发动机或涡轮机),以及部署预制模块化设备以提高电力容量。
预计到2027年,大多数企业领导者将会把能源消耗作为关键绩效指标(KPI)进行密切监控。企业需要采取前瞻性的能源消耗策略,包括采用更高效的AI硬件、优化系统和算法,以及部署液冷等先进冷却技术。只有这样,才能在满足AI发展需求的同时,实现可持续、可扩展的基础设施建设。