数据中心空气温度控制:回风 vs 供气
数据中心空气温度控制:回风 vs 供气
数据中心的温度控制对于确保设备的正常运行和延长使用寿命至关重要。传统的回风温度控制策略存在诸多局限性,而供气温度控制策略则展现出明显的优势。本文通过一个虚拟设施模型,详细对比了两种控制策略在不同负载条件下的表现,揭示了供气温度控制在提高能效、降低成本和优化设备运行环境方面的潜力。
控制数据中心的温度对于实现最大的正常运行时间和效率至关重要。虽然数据中心的布局已经迅速向热气和冷空气的分离移动,热通道/冷通道设计是行业标准,典型的空气处理器温度控制策略已经使用了几十年。
回风温度控制的目的是通过改变由各个冷却单元提供的空气的温度来实现房间内恒定的环境温度。这通常会导致供应给IT设备的空气温度的显著变化。控制空气处理器供应侧的温度,而不是返回,将控制返回给设施,并使提供给服务器的温度更可预测。这种可预测性导致提高水温和降低运行成本,并在建设新设施期间节省成本。
本文使用一个虚拟设备来演示这两种控制策略之间的差异,并量化切换到供应侧控制的好处。在过去的10-15年里,数据中心环境中的气流管理和密切的温度控制的重要性已经变得越来越明显。旧的设计策略只是要求将必要的千瓦冷却投入到数据中心空间和调节环境温度,但现在却无法应付现代服务器设计和功率密度。在过去十年的中期,数据中心的布局明确地将空间安排为冷热通道,这成为了新建筑实施的标准。随着近十年的发展,出现了更复杂的将冷热空气分离的方法:包含冷通道、包含热通道和在机柜上增加烟囱这三个很好的方法。然而,通常采用的控制数据中心温度的策略在很大程度上仍然固定于使用返回空气温度。
数据中心的冷却系统的唯一功能是为IT设备(在其入口)提供可接受的温度和湿度的空气,而不是使用者的舒适性或一般的房间空气温度。考虑到这一事实,很明显,返回空气温度不是IT设备入口温度的适当测量,似乎明确控制系统供应的空气温度是可取的。但是,这一战略尚未得到通过。
研究表明,CRAC供应温度非常适合控制设备进口温度,但这项工作是一个更广泛、更复杂的控制系统的一部分,包括可变风扇和格栅阻尼器。本研究产生的控制系统的复杂性意味着它们没有被广泛采用,供应温度控制的好处是噪声降低。最近的研究调查通过使用服务器本身内置的传感器来控制数据中心温度的潜力,并取得了显著成效。然而,这项工作仍处于早期阶段,这种类型的控制策略(结合当前的设备特性)意味着它还不够成熟,不可供普遍采用。考虑到这一点,目前,利用供气气流中的传感器控制空气温度是回程空气控制的唯一可行替代方案。
虚拟设施
该虚拟设施是一个数据中心的一个完整的三维虚拟模型展示。使用数据中心内的对象模型(acu、IT设备、pdu等)和CFD模拟,虚拟设施给出了一个准确的热性能空间。它提供了一个缓冲区,在实际项目中,在提交计划的更改之前,可以对其进行测试。虚拟设施面积625平方米,200多个机柜,最大容量800 kW,N + 2冗余。负载在服务器柜、刀片柜、存储和网络之间是不均匀分布的,以反映大多数真实数据中心的情况。
设计并不完美,但在可能的情况下遵循了最佳实践,没有明显的气流问题。本文利用虚拟设备作为试验场,探讨了制造开关的好处,并详细介绍了旧的回风策略的缺点。
回风控制策略的有效性取决于两个重要的注意事项:
(1)机组入口(回流)整个区域的温度变化最小;
(2)每个机组供应的空气在加热后返回该机组,形成一个封闭的控制回路。然而,在除了最小和最简单的数据中心之外,上述两种情况都不太可能是正确的。在最好的情况下,这将导致冷却系统的效率偏低。在最坏的情况下,它会导致冷却系统热点和停机。
传感器位置灵敏度
几乎所有的冷却单元都使用一个点传感器进行控制,但进气口的大小最高可达2平方米。该区域内的任何显著温度变化都可能导致传感器报告的温度过高。
图1:冷却装置顶部上方的温度变化图
在虚拟设施中,其中一个单元正在提供了比其他单元更高的6-7°C的空气,这仅仅是因为传感器的位置。图1显示了冷却单元入口正上方的空气温度平面。传感器位于入口前面的一团冷空气中,返回给控制器的读数为21°C,低于22°C的设定值。当输入低于设定值时,控制算法告诉单元它需要做很少或不冷却,它只是通过空气通过。然而,通过入口的平均温度实际上是26.5°C,机组通过进入升高地板的空气是25°C。如果传感器被放置在一个不同的位置,在最左边的地方,那么控制器的响应和单元行为将会完全不同。
闭合回路,开放回路
冷却单元控制算法都假定它们调整的变量(水阀或压缩机)与它们测量的变量(空气温度)之间存在直接关系。为了使返回侧的温度保持这种关系,如果不是全部,返回机组的空气中,大部分需要由同一机组提供。如果这是真的,那么当供应温度改变时,通过调节水阀或压缩机,回流空气也会发生类似的变化。然而,这种闭环在数据中心环境中很少存在。当回路在返回之前被来自不同冷却单元混合的空气打破时,控制算法对条件的正确反应的能力降低。
虚拟设施允许追踪气流(图2),显示该装置从哪里提取返回的空气。大部分来自它前面的热通道,但也有一小部分来自邻近的单元。这样做的最终结果是,当左边单元降低其供应温度时,右边的单元将实际上增加其供应的温度。值得注意的是,这种效应会导致供应温度随着时间的推移而上升,因为控制算法相互对抗。随着温度的升高和下降,它会强调IT设备中组件之间的关节,从而降低服务器的使用寿命。
图2:冷却装置之间的串扰
那么,控制供应方面是如何克服这些问题呢?回路控制系统对传感器的放置很敏感,因为回路入口很可能会有显著的温度变化。然而,大多数冷却装置的设计导致关闭线圈温度相对均匀,因此,整个电源的温度变化将是最小的。这几乎完全消除了控制器响应对传感器在供气气流中的位置的依赖。
电源侧控制通过显著缩短闭合控制回路,克服了机组之间的串扰问题。在返回空气路径上有一个传感器,来自单元的空气必须进入数据中心空间,然后通过一些设备返回传感器,这给回路留下了很大的空间。在供气路径中移动传感器可以保证控制回路保持关闭,因为它距离冷却线圈可能只有20或30厘米。控制器对水阀或压缩机所做的改变现在将直接反映在传感器测量的温度中。
由传感器位置导致的控制时间变化问题,不仅仅局限于冷却单元图2-冷却单元之间的串扰在来自另一个冷却单元的空气返回到它时获得误导性信息。图3显示了单个设备柜、单个冷却单元和传感器与不同传感器位置之间的交互方式。当传感器在回风口时,存在的热惯性和混合导致系统的阻尼不足。当传感器向供气流移动时,振荡减小。设备供气温度的更大稳定性将导致设备寿命的提高,因为电子设备故障的主要原因之一是较高的温度变化率。
图3-电源温度振荡随传感器位置的变化使用虚拟设施作为测试台,这两种控制策略可以在一个不断增长的数据中心中,在其生命周期的不同阶段进行比较。对于返回控制策略,使用了22°C的标准设定点(许多设施的典型特征)。2008年ASHRAE指南建议IT设备的温度范围为18-27°C,因此供应控制策略选择了18°C。冷却系统最重要的部分是IT设备入口的温度,所以这些是比较这两种策略的一个很好的指标。
第一个例子是在数据中心使用寿命的初期,占用率约为25%(图4)。负载不均匀分布,因为策略是从两端加载服务器机柜,向中心工作。
图4:配电系统,25%负荷
比较地板空隙中的温度(图5)显示,由于单元加载不均匀,回路控制策略的变化为9°C。无论冷却单元上的负载如何,供应控制策略都会导致温度均数为18°C。
图5-地板空隙温度变化,25%负荷
这对服务器有什么影响?评估性能的一种方法是将服务器入口温度与ASHRAE 2008第1级温度等级进行比较(图6)。
图6-ASHRAE 2008第1级设备合规性温度量表
图7使用这种方法来比较这两种控制策略。在回位控制的情况下,大量的机柜被过冷以达到回位状态。在供应情况下,没有机柜过冷,大多数是在ASHRAE接受的范围内。在这两种情况下,相同的机柜都高于ASHRAE可接受的范围。
图7 - IT设备ASHRAE 2008温度符合性,25%负荷
第二个例子是大约50%的入住率(图8)。在这里,随着服务器机架开始填充,负载的分布变得更加均匀。同样,在返回箱中,地板空隙的温度变化高达9°C,但在供应箱中,温度恒定为18°C(图9)。随着负载的增加,返回箱中的冷却单元的供应温度已经下降。这导致了越来越多的服务器被过冷(图10)。在供应的情况下,情况保持相对不变,大多数服务器都在推荐的范围内。
图8:配电分布,50%负荷
图9-地板空隙温度变化,50%负荷
图10 - IT设备ASHRAE 2008的温度符合性,50%的负载
在最后一个示例中,数据中心处于设计容量范围,所有机柜都完全填充(图11)。
图11 -配电系统,100%负荷
即使在满载的情况下,由于控制系统对传感器位置的敏感性,回路控制策略仍然会导致地板空腔温度的显著变化。同样,电源控制箱中的温度为恒定的18°C(图12)。在返回的情况下,为了达到控制标准,大部分设施都被过冷,而在供应的情况下,大部分设施处于ASHRAE可接受的范围内(图13)。
图12-地板空隙温度变化,100%负荷
图13 - IT设备ASHRAE 2008温度合规性,100%负载
该虚拟模型能方便地将数据导出到excel中,从而允许创建每种情况下的最高服务器入口温度的频率图。这些图显示供应控制如何显著降低整个设施的入口温度分布。这三个图表都显示,在供应控制的情况下,控制温度附近的分组要小得多,几乎所有的服务器都在ASHRAE推荐的范围内。对于所有三种负载条件(图14 -图16)在返回的情况下,大多数服务器入口分布在14°C和21°C之间。
图14-最大服务器入口温度的频率图,25%的负载
图15-允许温度,50%负载下最大服务器的频率图
图16-允许温度,100%负荷载最大服务器的频率图
然而,在供应的情况下,它们更紧密地分组在18°C和21°C之间。在某种程度上,这种过度冷却可以通过使用一个非常规的高控制设置点来抵消。然而,随着负荷的增加,特别是在满负荷下(图16),温度的扩散意味着增加回风控制设定值将导致相当大比例的设备接收空气超过推荐范围。对于满载的供应控制配置,99%的服务器在ASHRAE推荐范围内,90%在或低于21°C在相同加载的返回案例中,只有38%的服务器入口符合ASHRAE指南,其余的在21或21或低于21时过冷°C。
成本控制
虚拟设施中的冷冻水在8°C供应,并在12°C返回。由于回料箱中的最低供应温度在13°C左右,在不改变设备行为的情况下,没有空间改变冷水机的设定值。为了实现温度上升和节省成本,所采取的唯一措施是改变控制系统。仍有大量的IT设备高于18°C的设定值。通过采取行动,通过进行其他设计改变来减少这种情况,例如控制冷通道,就有可能进一步提高供应温度。
实际上,在一个设计良好的供应控制数据中心中,所有服务器入口都应该在控制温度的一到两个度内,供应温度设定点可以达到24°C或更高,同时节省。电源侧控制的另一个优点是,它在数据中心提供一个受控制的最低温度。能够控制最低温度意味着它可以远离露点,这意味着不再需要除湿。不在冷却装置上运行除湿器将进一步降低运行成本。在温带气候条件下,很少需要加湿,因此在这些地区,可以在没有任何加湿/除湿设备的情况下建设新的建筑,从而降低了成本。
其他影响
虚拟设施已经表明,切换到供应侧控制对服务器没有不利影响。研究表明,机架入口温度与供应空气温度有直接关系,因此,如果选择了17°C的控制温度,并可以实现同样的成本节约。随着风扇速度的增加或组件的效率的降低,温度的升高可能会增加电力服务器的牵引量。切换控制策略并没有显著增加超过这些温度的服务器数量,所以这种影响可能可以忽略不计。最后,那些在数据中心工作的人的工作环境将会改变,但不一定会糟。虽然,热通道的温度上升了几℃,从22-23°摄氏度上升到25-26°摄氏度,这仍然是可以接受的。
结论
使用虚拟设备作为测试环境,已经证明切换到电源温度控制策略有显著的优势。冷却单元对传感器的放置和单元间的串扰不那么敏感。随着设备的发展,供应控制策略同样能够应对不断扩大的负载,并将服务器温度保持在一个更紧密、更可控的范围内。最后,控制供应温度允许在冷冻水和供应空气温度之间有一个可预测的偏差。通过提高冷冻水的温度来缩小这一差距,将会节省能源和降低运行成本。