电力设备之AIDC行业专题报告:电源、配电、冷却的发展趋势
电力设备之AIDC行业专题报告:电源、配电、冷却的发展趋势
随着人工智能的快速发展,数据中心作为算力基础设施的重要性日益凸显。本文从电源、配电和冷却三个维度,深入分析了AIDC(人工智能数据中心)行业的发展趋势。
数据中心供配电架构解析
数据中心供配电系统为机房内所有需要动力电源的设备提供稳定、可靠的支撑。一般来说,A级数据中心采用双路电源供电,10kv市电进线到数据中心服务器的末端,常见的两路供电同时处于热备份状态,一路断电时另一路会支持关键负载持续供电。从上游到下游包括中压柜、变压器、低压配电柜,配电柜进线进到UPS,通过整流再给到PDU做最终分配,分配给各个服务器。
A级数据中心供配电系统主要有3种架构:2N、DR、RR。其中,2N系统最为常见,两个供配电单元同时工作,互为备用,每个单元均能满足全部负载的用电需要。正常运行时,每个单元向负载提供50%的电能;当一个单元因故障停止运行时,另一个单元向负载提供100%的电能。这种架构可克服单电源系统存在的单点故障瓶颈,增强供电系统可靠性。
数据中心主要设备环节
- 两路市电:每一路市电供电容量满足数据中心全部电力需求,两路电源负荷设备输入端自动切换,正常时同时供电,各承担50%负载。
- 柴油发电机:独立于正常电源,当正常电源发生故障时,作为备用电源承担数据中心正常运行所需要的用电负荷。
- 变压器:将市电6kV/10kV/35kV(3相)转换成380V/400V(3相),供后级低压设备用电。
- UPS:挂载的蓄电池与主机相连接,通过主机逆变器等模块电路为重要服务器负载持续供电,保证数据中心不断电,同时能净化电网。
- 断路器:接通、承载以及分断正常电路条件下的电流,也能在规定的非正常电路(例如过载、短路)下接通,承载一定时间和分断电流。
- 空调系统:由制冷循环和空气循环组成,制冷循环即利用有限的制冷剂在封团的制冷系统中,不断的在基发器处吸热汽化,进行制冷降温,将热量从室内微运到室外,主要分为水冷和风冷两类。
- 其他系统:保障数据中心的正常运转、安全管理及高效运营的其他系统,包括照明系统、消防系统、网络设备系统、监控系统等。
AI浪潮推动服务器功率提升
全球AI市场规模持续扩大,根据Precedence Research数据,2023年全球AI市场规模为5381.3亿美元,2024年预计达到6382.3亿美元,2024年至2034年将持续大幅扩增,年复合增长率达19.1%。北美区域占据了最大的市场份额,2023年占比达到全球的37%。未来除了北美区域以外,亚太地区将成为增长最快的人工智能市场。
海外数据中心投资大幅抬升,北美是全球最大的数据中心市场。2024年第三季度,微软、谷歌、亚马逊和Meta等科技巨头的资本开支持续增长,主要用于数据中心开发和技术基础设施建设。2025年1月,由OpenAI、日本软银集团和Oracle组成的联合企业“星际之门”(Stargate)宣布在德克萨斯建立智算中心和所需的发电设施,初期投资为1000亿美元,预计未来四年增长到5000亿美元。
算力需求带动GPU计算能力提升。全球算力需求激增,国内方面,中国工业和信息化部等六部门联合印发的《算力基础设施高质量发展行动计划》提出,2025年中国算力规模应超过300 EFLOPS,其中智算规模超过35%。海外方面,根据华为GIV预测,2030年全球每年产生的数据总量达1YB(尧字节),进入YB时代,全球智算规模将超过864 ZFLOPS。
GPU是AI算力的核心支柱之一。相比CPU算力增速的逐渐放缓,GPU算力在十年内实现千倍增长,并保持高速递进。据IDC预计,2025年GPU将占据AI芯片市场80%市场份额。算力激增对GPU计算能力提出更高要求。英伟达GPU更新换代,计算力不断升级。GB200计算性能大幅提升,相比H100算力提升6X,推理性能提升30X,大规模语言模型训练速度提升4X,相比CPU关键数据库查询处理速度提升18X,芯片内部晶体管数量增加,GPU芯片功耗的显著提升。
芯片功耗上升,单机柜高功率趋势凸显
芯片单体功耗急速增加,带动单台服务器功耗提升。芯片方面,英伟达的H100和H200单芯片功耗为700W,GB200达到2700W,单芯片功耗显著提升;服务器配置方面,NVL32 GPU数量为32颗,GB200 NVL72架构则需要72颗,单机柜部署4台服务器至9台服务器,整体功率要求大幅提高。传统每台8卡AI服务器的功耗在5kW~10kW,进一步由服务器组成整体机柜时,单机柜的功率将达到40kW以上。HGX系列单台服务器功耗从Hopper架构的10.2kW提升到Blackwell架构HGX B200的14.3kW,而NVL72单机柜功耗提升到120kW。
单位机柜密度提升。据Vertiv预测,2024至2029年,每机架的GPU数量将从36个显著增长到576个。机柜的物理空间相对有限,未来机柜的功率密度将快速提升,Rubin Ultra时期,AI GPU峰值机架密度功耗最高或超过1000kW,进入MW时代。
电源趋势:高效率、高功率
电源是AIDC供电系统建设核心,用于从电网传输到芯片的过程,将市电转换为服务器和GPU所需的稳定直流电压。IT设备不断升级对供电电源的要求提升,推动AIDC电源革命。
机柜外电源:UPS与HVDC对比
UPS(不间断电源)和HVDC(高压直流系统)都能保证数据中心不断电,同时净化电网。UPS含有储能装置,主要由整流器、逆变器、蓄电池、静态开关等部分组成。采用交流输入,涉及两次变换,经过AC/DC整流器将交流电转换为直流电给蓄电池充电,再经过DC/AC逆变器将直流电再次转换为交流电,有两级损耗。市电中断时,蓄电池需要经过逆变模块再给负载供电。UPS适用各行业,即插即用。
HVDC系统主要由交流配电单元、整流模块、蓄电池、直流配电单元、电池管理单元、绝缘监测单元及监控模块组成。直接将交流电转换为高压直流电,再通过直流配电单元向设备提供直流电,避开逆变环节,能量转换次数少,效率更高。市电中断时,电池直接和整流器输出母线连接并联输出至负载。运营商最早采用,目前用户集中在互联网厂商、三大运营商。
机柜外电源:高压HVDC方案创新提出,可进一步提升效率
HVDC产品代际:传统HVDC输出电压等级240、380V,未来新一代HVDC提高到750V/800V等输出电压。直流供电方案减少交直流变换的环节,供电效率高。随着智算中心单机柜功耗和密度提升,供电系统优化的关注点将转向更高电压等级,以解决导体截面积过大,更多的材料和更大的体积的问题。同时电压等级的升高也会带来远距离输电的优势,这将带动设计架构的变革。高压HVDC方案可进一步提升效率,同时可以更好的适配新能源供电。维谛白皮书提出,全直流供电可以减少交直流变换环节,供电效率提升,同时考虑未来智算中心中直流设备的比重将越来越大,预计未来可能会向10kV交流转低压直流的全直流供电模式演进。常规的数据中心HVDC供电技术方案中到机柜的转换效率为95%,高压直流方案可提升至98%。
BBU:作为机柜后备电源,保证IT设备运行
BBU(Battery Backup Unit)是一种后备电源,保障机架在电源切换时IT设备正常运行。由电池组和BMS、充电器/充电器和其他功能块组成。根据ORv3 HPRBBU Shelf要求,BBU shelf通常由PMI模块和6个5.5kWBBU模块(33kW)组成,具备5+1冗余能力,最低效率应覆盖全输入电压范围内的最大负载。在系统中添加BBU可提供系统冗余,如果发生断电或电压降低,系统需要时间来注意情况、保存重要数据并将操作转移到另一个数据中心服务器,BBU可在断电时提供达电源架最大额定值,提供短暂支撑。
工作原理:当母线电压低于48.5V持续2ms以上时,BBU模块放电模式被激活。BBU模块预计在2ms内接管母线电压,备用时间为4分钟。电池单元类型:BBU模块应具有锂离子18650类型,电池单元电压为3.5V至4.2V,最小电池容量为1.5AH,连续额定放电电流为30A。电池组容量:BBU模块可在4年内提供3kW的备用电力,最长不超过4分钟。
优点:1)体积小,可嵌入服务器机柜内灵活配置;2)转换效率高,采用DC/DC模式,能耗低;3)锂电池寿命长,可达5-10年;4)故障影响范围小,个别故障仅影响对应服务器;5)运行的BBU机架上BBU可热插拔,维护、升级更便利。
配电趋势:预制化、模组化、智能化
未来AIDC的趋势正朝着超大规模和快速部署等方向演进,这将推动电力模组化趋势,集成配电柜、变压器、UPS/HVDC等环节,节省供配电部分的占地面积,同时提升安装效率。传统数据中心在建设过程中分散设计,相互孤立:1)系统复杂:各级电压制式的配电系统和供电系统之间相互独立进行系统设计和设备选型,逐级预留冗余使变压器效率低,复杂的多级系统架构导致故障更多,不利于级联选择性设置,降低系统可靠性,同时开关重复配置造成重复投资,增加系统总占地面积;2)建设周期长:一二次线缆、智能化监控等环节需要大量现场工程,多个供应商与建设现场低效沟通,导致建设周期非常长。3)运维效率低:传统供配电系统存在大量人工巡检等工作,系统故障时需通过人工逐点排查,找到故障点后对故障情况进行分析再对症维修,无法及时快速完成故障排除检修,同时系统的运维数据及报表等信息难以管理,系统整体运维效率极低。
模组应用案例:UPS/HVDC都有相应的模组方案
伊顿电力模块方案:伊顿的预制式、一体化数据中心集成电力模块,是高度集成由原厂生产的中低压成套设备、UPS及干式变压器等智能电气设备和电源解决方案,更省地节电、易装易维护、灵活扩容。巴拿马电源本质就是模组化方案的一种。巴拿马电源从传统HVDC演变,特点:1)10KV高压深入到负荷中心;2)缩短低压配电线路,将低压配电变成设备内部线路;3)提高供电电压等级,采用240V或者336V,高于通信电源的-48V,和运营商的HVDC电压等级是一致的。从整体架构来看,数据中心巴拿马电源由10kV进线柜、隔离柜、整流输出柜、交流分配柜组成。具有占地面积更小、建设周期短、投资成本更少、整体效率高的优点。
电能质量:AIDC对电的质量要求提升
低压配电系统正常运行需要低压电能质量产品保驾护航。输入低压配电系统主要作用是电能分配,将前级的电能按照要求、标准与规范分配给各种类型的用电设备,如UPS、空调、照明设备等。在低压配电系统中存在大量如UPS、整流器、变频器、电弧炉等非线性负载,这些设备在工作时会产生大量谐波电流,给配电系统造成严重的谐波污染,影响配电系统安全运行,缩短仪器使用寿命,增加设备故障率。APF和SVG能够对大小和频率都变化的谐波以及变化的无功进行补偿,稳定电压。
数据中心机架数量、装机功率不断扩大,低压电能质量的市场规模快速上升。根据格物致胜预测,2025年数据中心行业低压电能质量市场规模有望达到8.4亿元,2021-2027年均复合增速达19%。数据中心行业用户更多从产品品质、可靠性、性价比等方面对低压电能质量产品进行选择,盛弘股份、艾临科、台达、英博电气等国产厂商更加容易得到客户青睐,常见于三大运营商、互联网IDC等数据中心用户的供应商短名单,在项目上有较多应用。其中盛弘股份排名领先,密集参与数据中心的出海项目,其产品在中国企业的海外数据中心得到广泛应用。
冷却趋势:液冷方案渗透率提升
机柜功率密度提升,对冷却提出更高要求。算力的持续增加促进通讯设备性能不断提升,芯片功耗和热流密度也在持续攀升,产品每演进一代功率密度攀升30~50%。芯片功率密度的持续提升直接制约着芯片散热和可靠性,传统风冷散热能力越来越难以为继。芯片功率密度的攀升同时带来整柜功率密度的增长,当前最大已超过30kW/机架;对机房制冷技术也提出了更高的挑战。在高功率密度机柜的场景下,为了解决机柜间的散热需求,液冷方案逐渐兴起。Vertiv指出,随着机架密度升至20kW以上,多种液冷技术应运而生,从而满足高热密度机柜的散热需求。
液冷可以降低数据中心PUE
降低辅助能源的消耗成为了实现低PUE值的关键所在。PUE(电能利用效率)是衡量数据中心能源利用效率的重要指标,PUE值越低,说明数据中心用于IT设备以外的能耗越低,越节能。随着算力需求的不断攀升,硬件设备的能耗也相应的持续提升。为了在确保算力稳定运行的同时满足节能目标,只能通过降低辅助能源的消耗,从而实现较低的PUE值。
液冷方案可以实现更低的PUE。常规数据中心能耗占比中,IT设备为主要能耗,占比65%。其余是制冷系统24%、供电系统8%、办公照明3%。PUE的计算方式等于总能耗除以IT设备能耗,常规数据中心对应PUE为1.5左右。不同的冷却方案可以实现不同程度的低PUE,液冷技术利用液体的高导热、高传热特性,在进一步缩短传热路径的同时充分利用自然冷源,实现了PUE小于1.25的极佳节能效果。