用魔法打败魔法:用AI控制AI算力碳排放
用魔法打败魔法:用AI控制AI算力碳排放
随着AI大模型的快速发展,对算力的需求呈现爆发式增长。数据中心作为AI算力的主要载体,其能源消耗和碳排放问题日益凸显。近日,惠普实验室提出了一种基于多智能体强化学习的数据中心减碳模型(DC-CFR),该模型在实验中展现出显著的节能减排效果。
AI算力需求爆发,数据中心亟需清洁电力
AI大模型的革命性突破带来了算力需求的爆发式增长。根据研究数据:
- 摩尔定律下,算力每18个月翻倍
- 总算力每12个月翻倍
- 单芯片算力(GPU)每6个月翻倍
- 训练算力需求每2-3个月翻倍
AWS预测,未来推理对算力的需求将远超训练,占比将达到90%。计算的本质是能源的处理形式,从技术上讲是瓦特驱动比特,从经济上讲则是通过AI计算将电力转化为token这种商品的产出。
黄仁勋将英伟达定义为一家AI工厂,其生产的以token计量的智能将成为未来经济的基础商品。目前,从美国科技七雄(M7)到中国科技巨头,都建立了规模庞大的GPU算力基础设施。这些企业也是清洁电力的最大采购方,并制定了碳中和计划。
AI优化数据中心能源管理
数据中心的电力需求巨大,且对电力稳定性要求极高。传统的能源管理策略存在以下问题:
- 单个策略依赖于不准确的长时预测
- 各策略之间缺乏协同,无法实现整体优化
- 缺乏实时操作能力
惠普实验室的研究人员提出了数据中心减碳模型(DC-CFR),该模型基于多智能体强化学习(MARL)框架,旨在破解数据中心的“不可能三角”:电力供应、减少碳足迹和控制电力成本。
该模型将问题分解为三个子问题,每个子问题使用一个独立的马尔可夫决策过程(MDP)进行求解,对应三个智能体:
- HVAC冷却
- 灵活的负载转移
- 储能优化
研究人员将这三个智能体接入OpenAI的深度强化学习算法,并通过OpenAI Gym接口将数据中心的模拟环境与强化学习算法集成。他们设计了一个奖励信号,激励智能体降低能源消耗、碳足迹和能源成本。操作时间间隔设定为15分钟,以实现对系统的精确控制。
(数据中心的数字孪生。研究使用了NREL的EnergyPlus数据中心模拟,通过IBM的SinerGym扩展了强化学习(RL)接口,并使用了Facebook的电池模型。)
实验结果与未来展望
研究人员使用纽约的天气和碳强度数据训练智能体,并通过加入噪声提高泛化能力。他们在不同气候条件下评估模型性能,选取了亚利桑那、纽约和华盛顿三个地点的数据。实验结果显示,DC-CFR模型在一年的评估中,相比行业标准的ASHRAE控制器,减少了14.5%的碳排放、14.4%的能耗和13.7%的能源成本。
研究团队计划开源这一数据中心减碳模型,并整合更多数据中心策略智能体,如优化碳动态异构计算资源分配。未来,该技术还将扩展应用于超级计算领域。