问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

认识AI硬件的开放架构:OAI与OAM

创作时间:
2025-03-21 01:45:53
作者:
@小白创作中心

认识AI硬件的开放架构:OAI与OAM

引用
1
来源
1.
https://www.sekorm.com/news/526435399.html?isSekormApp=0

在AI领域,开放加速器基础设施(OAI)是由全球最具影响力的开源硬件组织之一:开放计算项目(OCP)所设立的一个子组织。自2019年起,OAI专注于定义适合大规模深度学习训练的AI加速卡形态,解决了多元AI加速卡形态和接口不统一的问题。透过发布OAI-UBB(通用底板)1.0设计规范,OAI推动了AI加速硬件平台的标准化,使其能够无需修改即支持不同厂商的产品,显著提升了AI模块的扩展性和灵活性。

AI巨头们陆续采用的架构- OAM (Open Accelerator Module)

对于AI服务器开发商来说,开放加速模块(OAM)带来了显著的好处。由于AI加速芯片的多样化和专业化,开发商面临着更高的开发成本和较长的开发周期。OAM的出现为这些开发商提供了一种高效且可扩展的解决方案,使他们能够更容易地整合新的AI加速器。这不仅降低了进入门槛,还加快了产品的市场推广时间。

OAM带来的优点与挑战

OAM有着三项显著优点,使其在当今快速发展的AI市场中显得尤为重要。

  1. 高效能与效率:OAM能显著提高处理的性能和效率,对于需求高算力的应用,如深度学习和机器学习,表现特别突出。
  2. 可扩展性:OAM设计允许在不同的系统和基板之间实现灵活的兼容性和扩展性,从而能够适应不断进步的高算力负载和技术发展。
  3. 支持多样的应用场景:OAM适用于多种领域,包括AI推理、科学模拟以及数据分析等,这种多样性使其能够满足广泛的业务需求。

这些优点展示了OAM在现代数据中心和高性能计算环境中的应用潜力和灵活性。

但是与此同时,采用OAM也需要面对几项挑战。

  1. 技术和设计复杂性:当前专用的AI硬件系统在技术和设计上相当复杂,这使得将新的AI加速器整合到系统中通常需要6到12个月的时间,从而阻碍了新竞争技术的快速采纳。
  2. 高功耗管理:随着OAM产品设计功率的增加,达到600W以上时Base Specification已经建议采用液体冷却技术,这表示高功耗管理是一大挑战,特别是在未来功率可能轻易超过700W的情况下。
  3. 标准化和兼容性:AI加速器的快速演进和多样性对于标准化和兼容性有更高的要求,以支持各种硬件加速解决方案的可扩展性和模块间的高速通信链接。

OAM设计中的关键挑战

在OAM设计中,存在两个主要的技术挑战:

  1. 配合散热的结构设计:Top Stiffener with Thermal Solution

Top Stiffener虽然在Base Specification中着墨甚少,但却需要良好的结构设计来配合OAM设计,否则会直接影响散热的效率。好的Top Stiffener设计包括良好的支撑与导热,才能让air-cooling solution例如3U或是4U高度的3D VC充分发挥功效。面对超过600W TDP的下一代方案,还需要整合Cold plate的liquid cooling。这些都考验制作厂商在机构设计、材料选择以及对散热技术的了解才能实现。

  1. 加工工艺上的挑战:OAM Bottom Stiffener

OAM与UBB连接不良是实务上最常见的问题,而连接不良往往来自于对于OAM Bottom Stiffener的轻忽。OAM普遍采用的是Mirror Mezz Pro Connector,在Base Specification里提到的公差必须维持在± 0.15mm,但由于组装能力以及加工能力的差异,不良的Bottom Stiffener往往会导致最终组装公差过大或是两端不平均导致连接不良。无论是多优秀的AI芯片,如果在硬件设计和制造上出现疏漏,都可能影响整体性能的发挥。

结语

AI相关技术在近年来发展突飞猛进,带来的挑战更是跨领域的。在追求卓越AI性能的过程中,每一个细节都至关重要。从硬件设计到散热解决方案,都需要精良的技术和严谨的工艺。随着AI技术的不断发展,这些挑战也将持续推动相关领域的创新和进步。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号