资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

上海交大吴晨涛：面向大模型应用的内存故障容错技术

创作时间:

作者:

@小白创作中心

上海交大吴晨涛：面向大模型应用的内存故障容错技术

引用

来源

https://www.dostor.com/p/98150.html

随着人工智能技术的快速发展，大模型训练对内存系统的可靠性提出了更高的要求。上海交通大学吴晨涛教授在2025人工智能基础设施峰会上发表主题演讲，分享了其团队在内存故障预测与容错技术方面的最新研究成果。

研究背景与发现

随着云计算、大数据等系统的快速扩展和规模日益增大，内存系统的可靠性已成为影响整个系统运行的重要因素。京东云的调查表明，内存故障占数据中心硬件故障的37%。在AIGC算力快速部署的当下，内存可靠性面临着更为严峻的挑战。

在大模型训练中，内存故障问题尤为突出。以Meta公司为例，其利用992张A100集群训练175B参数模型，在3个月的训练时长中，系统重启超过100次，最长稳定运行时间仅为2.8天，最长中断达2天，平均中断时长12小时，其中硬件故障占50%。若以ETTR（有效训练时间比率）衡量，GPU越多，ETTR值越低，万卡集群平均有效运行时间仅占正常时间的70%。随着DeepSeek等大模型应用的广泛使用，内存可靠性的挑战只会增多，不会减少。

2025人工智能基础设施峰会会场

内存故障预测

内存故障预测是智能运维系统（AIOps）的重要组成部分，谷歌、微软、华为、阿里等公司均致力于发展内存故障预测技术。内存故障模式多样，包括单点错误模式、行错误模式、列错误模式和无序错误模式等。内存一般配有ECC编码，若错误在编码容忍范围内，可纠正回来，称为CE（CorrectableError）；若错误超出编码容错能力，则称为UC/UCE（UncorrectableError）。

内存故障模式种类繁多，故障原因多样，给故障预测带来了很大难度。研究团队与华为合作，从row、col、bank三个维度进行三维空间分析，针对发生故障的所有内存单元进行跟踪，分析三维模型。以24小时为周期划分每个bank力度上的UE和CE信息，观察其时间规律，并以红、蓝、绿三色进行标注，发现row、column、bank这三个维度的内存故障均呈现非常明显的时间和空间局部性。

影响内存故障的主要因素包括DIMM架构、DRAM光刻叠层工艺、系统负载和平台架构等。内存故障与内存介质、内存访问特性相关度极高，且内存对延迟要求极为敏感，因此对故障预测的要求更高。

基于以上分析，研究团队与华为合作，针对大规模华为云集群环境中的内存故障预测展开研究。通过对12万台服务器、近200万条内存故障日志的分析，发现不同架构平台的内存故障特性存在显著差异。例如，在x86架构的服务器中，只发生UE的内存比例约为11%，而在Arm架构下则仅为4%，约为x86的1/3。进一步研究发现，Arm服务器在ECC编码中保留了更多的奇偶校验位，使得其在4bit位宽时能达到Chipkill级性能，但在8bit位宽时难以应对大量错误，导致错误率急剧上升。

此外，研究团队还分析了内存故障的可预测性。研究发现，Arm架构在较短提前时间（如6小时）内，可预测UE的生存函数概率值略高于x86服务器，但在较长提前时间（如24小时）内，x86架构表现出更高比例的可预测UE。同时，x86和Arm平台之间CE与UE的关系也存在差异，x86服务器在出现不可纠正错误前，通常会有大量可纠正错误，而Arm服务器则表现不一致，这可能与其风暴抑制功能有关，该功能虽然增强了系统稳定性，却减少了用于故障预测的错误数据量。

针对内存故障成因复杂的特点，研究团队采用了特征工程方法，兼顾时间局部性、空间局部性等多方面特征，包括静态特征、空间特征、时间特征、类型特征、故障位特征等，构建了统一的针对大规模异构集群的内存故障预测与分级容错架构。该架构从DIMM级、服务器级、页面级、行级分别进行粗粒度和细粒度的故障预测，并针对故障预测结果设计了相应的容错机制：一是针对服务器的虚拟机或容器进行热迁移；二是对对应内存的页面进行软下线；三是对风险区域进行数据保护和降级使用。

数据智能技术应用分论坛现场

实验结果

研究团队在系统中提供了针对DIMM级以及行级、页级双视角的内存故障预测方法，结合XGBoost等算法，取得了较好的效果。在x86平台，实现了51%的精准率和81%的覆盖率；而在Arm平台，由于其风暴抑制和奇偶校验位等功能导致缺少细粒度故障信息，内存故障预测性能相对较低。

进一步的实验分析了不同提前时间下预测性能的变化，发现无论是提前1秒、5秒、1分钟、5分钟、1小时还是6小时等，均能达到一定的预测效果。这些成果已在华为云中进行了部分落地应用。

针对x86和Arm架构的差异，研究团队测试了不同因素对这两个平台内存故障预测性能的影响。在x86架构中，bitlevel的CE特征占主导地位，去除该特征会导致性能显著下降；而在Arm架构中，静态特征、局部特征和空间特征等对预测性能均有不同程度的影响，其中空间特征的影响最大。整体而言，在Arm架构上进行内存故障预测更具挑战性。

研究团队将容错机制在华为云集群中进行了大规模部署，取得了显著收益。部署后，平均降低了上层虚拟机业务故障率27%；采用第二级容错时，可多避免110.6%的内存UE，但开销仅为Linux内存默认方案的92.4%；在集群运行过程中，共有15.6%的内存容量被软下线，通过三级容错策略，重新释放了其中78.65%的容量，剩余11.68%的重复出现UE的区域，皆被TierIII恢复数据，避免了OS进程挂死。

上海交通大学计算机科学与工程系教授、博士生导师吴晨涛

总结与展望

研究团队针对内存故障预测问题开展了深入研究，特别是针对大规模集群的硬件故障，通过特征工程方法构建了DIMM/行列级分级容错机制，有效降低了上层虚拟机业务的故障率，保障了大规模系统的稳定性，为AIGC技术的发展提供了有力支持。

未来，研究团队将进一步拓展研究方向。一方面，将故障预测与大模型的Checkpoint机制相结合，构建主被动分级容错技术，以更好地保障AI应用的可靠性；另一方面，深入研究存储子系统容错技术，探讨DRAM、PM、SSD/HDD等设备故障之间的相关性，并进一步探究内存故障对上层应用业务的影响范围。此外，随着CXL等相关技术的实施，研究团队还将研究针对CXL-DRAM/PM等的故障预测技术，为构建大规模内存池提供技术支持。