RDMA科普：AI网络革新的关键技术

创作时间:

作者:

@小白创作中心

RDMA科普：AI网络革新的关键技术

引用

来源

https://www.modb.pro/db/1855801446843822080

随着人工智能（AI）技术的飞速发展，数据中心正在从传统的计算中心演进为智算中心。在这一过程中，数据传输网络面临着前所未有的挑战，高带宽、低时延的需求日益增加。尤其是在人工智能大模型的加速发展下，网络的拥塞、数据传输的乱序、以及网络拓扑优化问题，成为了AI应用领域亟待解决的关键瓶颈。为应对这些挑战，RDMA（远程直接内存访问）作为一种高性能、低延迟的数据传输技术，逐渐成为AI网络互联中的核心技术。

RDMA的诞生与意义

传统的数据传输模式中，数据从内存到网络的流转，通常需要多次通过CPU来处理，导致传输效率低下、时延大、并且CPU的负担极重。这不仅严重限制了网络性能的提升，也使得在高并发、复杂计算场景中，数据传输成为了系统性能的瓶颈。

RDMA技术的出现，正是为了打破这种传统数据传输方式的局限性。通过主机卸载和内核旁路技术，RDMA实现了两个应用程序间的内存直接通信，数据不再需要频繁通过CPU进行处理。这种“零拷贝”的特性，不仅极大减少了传输时延，还显著降低了CPU的负载，使得系统可以在高并发的情况下，仍然保持高效的通信能力。

在AI应用场景日益复杂和数据量爆炸式增长的今天，RDMA的高效数据传输能力，成为支撑未来智算中心的关键。

RDMA的核心技术优势

RDMA之所以能够在AI网络中脱颖而出，源自其一系列的技术优势。首先，RDMA允许数据在不同节点的应用程序间进行直接传输，无需经过多次内存拷贝。这种“零拷贝”的模式，极大地降低了数据传输的时延，使得网络可以在微秒级别内完成数据交换。此外，RDMA通过硬件完成数据报文的封装与解封装，摆脱了传统网络中CPU的计算瓶颈，大幅降低了CPU的负载压力。

这一特性在AI网络中尤为重要。因为AI任务通常涉及到大量的计算和数据交互，传统的网络架构难以满足AI模型在高并发下对低时延的需求。而RDMA通过内核旁路技术，使得应用程序可以直接在用户态执行数据传输操作，进一步提升了系统的灵活性和效率。

其次，RDMA技术不仅提供了低延迟的传输能力，还支持大规模并发通信。通过支持多路并发的数据流，RDMA使得网络能够更好地处理大规模AI训练中的并发请求，有效避免了传输带宽的瓶颈问题。这种并发性使得RDMA成为高性能计算（HPC）、大数据存储、机器学习等场景中不可或缺的互联技术。

RDMA在AI网络中的应用

随着AI网络的快速发展，尤其是大模型训练任务的增多，RDMA技术逐渐成为支撑这些复杂任务的基础架构之一。在AI智算网络中，存在着“Scale-up”和“Scale-out”两种网络架构，RDMA凭借其高带宽、低时延的传输性能，能够在这些不同架构中为AI任务提供稳定、高效的数据传输支持。

相较于InfiniBand这种专网方案，基于以太网的RDMA解决方案不仅具有成本优势，还具备高度的可扩展性和灵活性。基于RoCEv2协议的RDMA技术方案，能够在不牺牲性能的前提下，充分利用现有的以太网基础设施，帮助企业大幅降低网络部署成本。

最新的统计数据显示，使用以太网RDMA方案可以将TCO（总拥有成本）降低超过50%，并且能够支持100万张GPU的扩展能力，而InfiniBand方案则只能支持48000张GPU。这种高扩展性使得RDMA成为支撑未来大规模AI集群的理想选择。

RDMA未来的技术创新

尽管RDMA技术在当前的AI网络中已经展现出了极大的优势，但随着AI任务复杂度和集群规模的不断提升，RDMA技术也面临着新的挑战。特别是在“万卡集群”甚至“十万卡集群”的规模下，现有的RDMA技术框架显然需要进一步的优化与提升。

未来的RDMA技术需要解决以下几个关键问题：

可扩展的RDMA控制器：在大规模集群中，RDMA控制器需要管理成千上万个连接，这对控制器的扩展性提出了极高的要求。研究如何通过分区和负载均衡技术管理大规模集群中的RDMA连接，成为技术革新的重要方向。
高效的QP（队列对）管理：在万卡集群中，RDMA通信中的QP数量将急剧增加，如何动态分配和回收QP资源、智能调度带宽，是未来RDMA技术研究的重点。现有的硬件和软件在大规模并发情况下的优化，是决定未来网络性能的关键。
网络拥塞问题：随着集群规模的扩大，拥塞不仅影响传输带宽，还会导致丢包和重传，进一步加剧拥塞问题。因此，开发适用于RDMA的拥塞控制和流量管理算法，能够有效提升网络的传输效率，减少丢包。
网络拓扑的优化：大规模AI集群通常采用多层次的网络拓扑，如何在这些不同层次的网络中实现高效的数据传输，将极大影响系统的整体性能。

柏睿数据的RDMA技术突破为未来的AI基础设施提供了重要支持。通过将RDMA封装成Socket接口，使得开发人员可以使用熟悉的Socket编程模型，而无需直接处理RDMA的复杂性。这一创新不仅简化了RDMA的应用门槛，还提高了应用程序的可移植性和兼容性。在不同Payload Size、多线程情况下的测试结果显示，RDMA Socket显著提升了数据传输的速度和效率，为AI模型的快速迭代和优化提供了坚实保障。