资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Fire-Flyer AI-HPC：一种成本效益高的深度学习软硬件协同设计

创作时间:

作者:

@小白创作中心

Fire-Flyer AI-HPC：一种成本效益高的深度学习软硬件协同设计

引用

来源

https://xueqiu.com/2589627699/324538353

全文分析：《Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning》

1. 论文概述

本文介绍了Fire-Flyer AI-HPC架构，这是一种软硬件协同设计的深度学习高性能计算（AI-HPC）系统，旨在以更低成本实现大规模深度学习（DL）和大语言模型（LLMs）的训练。研究团队部署了10,000 台 PCIe A100 GPU，通过优化HFReduce、HaiScale和3FS 分布式存储系统，在成本仅为NVIDIADGX-A100 一半的情况下，实现了接近 DGX-A100 的计算性能，并减少了 40% 的能耗。

2. 研究背景

2.1 深度学习计算需求增长

深度学习的快速发展需要大量计算资源，特别是大语言模型（LLMs）的训练，对 GPU 计算和内存提出了极高要求。
摩尔定律增长速度（2年翻倍）已经赶不上AI 计算需求增长（每年 10 倍），导致计算成本大幅上升。训练 LLM 需要数百到数千台 GPU，而大规模 AI 计算中心的建设成本和能耗也随之增加。

2.2 高性能计算（HPC）与 AI 计算的差距

传统 HPC 主要用于双精度计算，不支持 FP16/FP8 等 AI 计算精度，无法高效运行深度学习任务。现有 AI-HPC 方案（如NVIDIADGX、MetaAI-HPC、字节跳动 AI 训练集群等）在性能、成本和可扩展性上存在不同的权衡。

3. Fire-Flyer AI-HPC 设计方案

3.1 软硬件协同设计

计算架构：
采用10,000 台 PCIe A100 GPU进行训练。构建两层 Fat-Tree 网络拓扑结构，减少网络拥塞，优化通信效率。采用HFReduce优化 allreduce 通信，提高计算和通信重叠度。
存储架构：
采用3FS 分布式文件系统，优化大规模 AI 任务的 I/O 性能，解决数据存取瓶颈。提供8TB/s 读带宽，满足大规模数据训练需求。
任务调度与系统管理：
HAI-Platform提供任务调度、故障处理和容灾恢复，提升 GPU 资源利用率至99%。

3.2 成本与能效优势

硬件成本：Fire-Flyer 架构的总成本为DGX-A100 方案的 50%。
计算性能：实现DGX-A100 80% 的计算性能，但成本大幅降低。
能耗降低：系统功耗降低40%，减少碳排放，更符合绿色计算需求。

4. 关键技术优化

4.1 HFReduce（高效 allreduce 通信）

优化 allreduce 算法，提高计算-通信重叠度：
先在 CPU 进行intra-node reduce（节点内聚合）。再用双二叉树算法（Double Binary Tree Algorithm）进行inter-node allreduce（节点间聚合）。最后将结果写回 GPU，避免 GPU 计算资源浪费。
HFReduce 相较 NCCL 的优势：
减少 PCIe 带宽消耗，提高 GPU-CPU 数据传输效率。实现全异步计算，不影响 GPU 计算性能。支持 NVLink 加速，在 PCIe A100 GPU 之间提供更快的 allreduce 通信。

4.2 HaiScale（优化深度学习训练并行度）

采用数据并行（DP）、流水线并行（PP）、张量并行（TP）、专家并行（EP）、全分片数据并行（FSDP）等优化策略，提升 LLMs 训练效率。针对NVLink 桥接的 PCIe A100 GPU进行了优化，提高 Tensor 并行性能。

4.3 3FS 分布式存储系统

采用NVMe SSD + InfiniBand（IB）网络作为存储架构。结合CRAQ（链式复制 + 分摊查询），提高存储吞吐量和一致性。提供3FS-KV存储，支持DeepSeek LLMs 上下文缓存，降低推理成本。

5. 系统稳定性与硬件可靠性

5.1 Checkpoint 管理

采用3FS 高吞吐存储，实现秒级模型参数存储，保证训练中断时的数据安全。通过HAI-Platform定期保存模型参数，减少恢复时间，提高集群在线率。

5.2 硬件故障诊断

部署Validator 硬件检测工具，定期检查：
GPU 计算错误（ECC 错误、NVLink 连接问题）。CPU 频率和内存带宽。网络连接稳定性（InfiniBand 链路状态）。存储系统 I/O 带宽。GPU Xid 错误分析
Xid 74（NVLink 错误）：占42.57%，主要发生在 NVLink 桥接。Xid 43（非法内存访问）：占33.48%，表明用户代码可能存在问题或 GPU 内存数据损坏。

5.3 网络优化

采用InfiniBand SL（服务级别）技术，为不同流量（训练通信、存储 I/O 等）分配不同的虚拟信道，避免拥塞。通过**静态路由 + PCIe 放松排序（Relaxed Ordering）**提高网络带宽利用率。

6. 未来发展

新一代 PCIe AI-HPC 设计GPU-NIC 1:1 绑定，提高 all-to-all 通信性能（适用于 Mixture-of-Experts LLMs）。采用 RoCE（RDMA over Converged Ethernet）网络，降低 InfiniBand 交换机成本。多平面（Multi-Plane）网络拓扑，提升大规模 GPU 计算集群的可扩展性。

7. 研究贡献

Fire-Flyer 2 AI-HPC 采用 PCIe A100 GPU，达到 DGX-A100 80% 性能，成本减少 50%，能耗降低 40%。提出 HFReduce allreduce 通信优化方案，相比 NCCL 显著提升 PCIe 架构下的训练性能。构建 HaiScale 并行训练框架，支持 LLMs 训练，提高计算效率和 GPU 资源利用率。开发 3FS 高吞吐分布式存储系统，优化 AI 计算存储 I/O 瓶颈。系统稳定性优化：Checkpoint管理、Validator 硬件检测、GPU Xid 错误分析，提高集群在线率。