问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

英伟达vs华为:AI大模型联网能力的技术较量

创作时间:
作者:
@小白创作中心

英伟达vs华为:AI大模型联网能力的技术较量

引用
新浪网
12
来源
1.
https://finance.sina.com.cn/jjxw/2025-02-08/doc-ineitvcf2442612.shtml
2.
https://developer.nvidia.com/zh-cn/blog/harness-dpu-accelerated-packet-steering-logic-with-nvidia-doca-flow/
3.
https://developer.nvidia.com/zh-cn/blog/spotlight-cisco-enhances-workload-security-and-operational-efficiency-with-nvidia-bluefield-3-dpus/
4.
https://we.yesky.com/blog/303395
5.
https://blog.csdn.net/xxue345678/article/details/139435082
6.
https://www.huaweicloud.com/special/tuijian-18604368
7.
https://www.huawei.com/cn/huaweitech/publication/202402/unleashing-intelligence-with-new-infrastructure
8.
http://www.cww.net.cn/article?id=580858
9.
https://cloud.ofweek.com/news/2025-01/ART-178804-8500-30656105.html
10.
https://53ai.com/news/LargeLanguageModel/2025011180472.html
11.
https://www.cnblogs.com/huaweiyun/p/18520419
12.
https://www.fibermall.com/blog/nvidia-spectrum-x-ethernet-based-ai.htm?srsltid=AfmBOoq86TT_ScUKLW7SeR1BRvbvCcHKofimQlLsCtqaT1iPXgGvrvqh

随着AI大模型的快速发展,网络性能已经成为影响模型训练效率的关键因素。英伟达和华为作为全球领先的AI基础设施提供商,都在积极研发新技术以提升AI大模型的联网能力。本文将对比分析两家公司的最新技术进展。

01

英伟达的技术方案:DPU硬件加速与软件框架优化

英伟达最新的技术方案主要围绕BlueField-3 DPU(数据处理器)和DOCA Flow软件框架展开。BlueField-3 DPU是英伟达专为数据中心设计的可编程处理器,能够提供强大的网络、存储和安全加速功能。而DOCA Flow则是英伟达为简化DPU和SmartNIC编程而推出的软件开发框架。

DOCA Flow通过将网络相关操作卸载到DPU,显著降低了CPU的网络开销。它提供了C库API,用于定义基于硬件的数据包处理管道,抽象了BlueField DPU和ConnectX SmartNIC的硬件功能。这使得开发人员能够为数据中心和云网络构建高性能和可扩展的应用程序。

DOCA Flow的核心优势在于其能够优化DPU和SmartNIC的利用率,通过预创建的网络构建块让用户专注于应用程序开发,而不是底层数据包处理细节。这不仅减少了开发时间,还使软件开发更容易,所有经验级别的开发人员都可以使用。

02

华为的技术方案:整网负载均衡算法创新

华为则在整网负载均衡算法方面取得了重要突破。其最新推出的NSLB2.0算法能够根据整网交换机节点流拥塞状态和全网拓扑进行全局算路,识别出最优路径,从而将整网吞吐提升至98%。

在AI训练场景中,大流(100MB~几GB)为主,流数量少,单流通信数据量大,传统网络更易负载不均,常年吞吐仅有50%。华为的NSLB2.0算法通过全局负载均衡机制,解决了这一难题。在某实验室测试中,网络性能最高提升了113%。

华为的方案特别针对AI训练中的allreduce通信特征进行了优化。在allreduce操作中,同一时间均为点到点通信,无多打一,流数少,单流带宽大,流量模型是对分流量。理想目标是所有流量都能够在1:1无收敛的网络中均衡传输,从而使整网吞吐达到100%。

03

技术路线对比与未来展望

英伟达和华为的技术方案各有侧重:

  • 英伟达通过DPU硬件加速和软件框架优化,主要解决CPU网络开销问题,适用于各种需要高效数据包处理的场景。
  • 华为则聚焦于网络负载均衡算法的创新,特别针对AI训练中的大流通信特征进行优化,能够显著提升整网吞吐率。

两种方案都旨在解决AI大模型训练中的网络性能瓶颈问题,但采用了不同的技术路线。未来,随着AI模型规模的持续扩大,对网络性能的要求将进一步提高。可以预见,英伟达和华为都将继续在这一领域进行深入研究,为AI大模型的训练和推理提供更强大的支持。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号