利用 PCI-Express 交换机实现面向未来的推理服务器

发布于:2025-03-31 ⋅ 阅读:(24) ⋅ 点赞:(0)

在数据中心系统的历史上,没有比被 Nvidia 选为其 AI 系统的组件供应商更高的赞誉了。

这就是为什么新兴的互连芯片制造商 Astera Labs 感到十分高兴,因为该公司正在 PCI-Express 交换机、PCI-Express 重定时器和 CXL 内存控制器方面与 Broadcom 和 Marvell 等公司展开竞争。当 Nvidia 批准即将推出的服务器节点使用“Blackwell”GPU 加速器时,该公司感到十分高兴,该加速器使用 PCI-Express 6.0 交换机和重定时器将 X86 GPU 连接到其 Blackwell GPU,在某些情况下还包括网络接口卡和存储。

MGX 是一套服务器参考设计,包括 Nvidia 自己的 AI 野兽的基本构建块以及 OEM 和 ODM 创建的克隆,以便他们能够分得一杯羹。

在上周举行的 2025 年 GPU 技术大会上,Astera Labs 做了两件事。首先,它展示了其“Scorpio”P 系列 PCI-Express 6.0 结构交换机和“Aries”PCI-Express 6.0 重定时器与 Nvidia 的“Hopper”H100 和 H200 GPU 以及 HGX 设置中使用的各种 Blackwell B100 和 B200 GPU 的互操作性(熟悉的 2 CPU 乘以 8 GPU 设计,现在称为 Hoppers 的 HGX NVL8 和 Blackwells 的 DGX NVL16)。其次,Astera 展示了由 ODM 服务器制造商 Wistron 设计的基于 Hopper GPU 的推理服务器,并使用其交换机和重定时器将组件连接在一起。

目前还不清楚 Nvidia 本身在其系统中使用 Astera 芯片的情况,我们只是利用这次公告作为研究 Astera 提供的产品的机会,但 Nvidia 硬件工程副总裁 Andrew Bell 在一份声明中表示,Scorpio 交换机与“基于 Blackwell 的 MGX 平台”集成,所以你明白了。基于 DSP 的 Aries 重定时器没有被提及,但如果您需要扩展 PCI-Express 5.0 或 6.0 链路以将组件空间稍微拉远一些,您也需要这些东西。

从概念上来说,一切看起来是这样的:

在上图的中间,结构可以是任何 PCI-Express 交换机,但 Astera 无疑更希望它是自己的 Scorpio 交换机,它也显示了这一点。使用来自两个不同供应商的交换机和重定时器可能会带来麻烦。

如您所见,您可以使用重定时器将 GPU 链接到网络或存储结构,以及用于将 GPU 直接绑定在一起的不同 PCI-Express 结构,就像 Nvidia 使用 NVLink 端口和 NVSwitch 交换机所做的那样。目前,GPU 加速器还没有跨此 PCI-Express 结构的内存寻址,但这正是由 AMD、Broadcom、思科系统、谷歌、惠普企业、英特尔、Meta Platforms 和微软牵头的超级加速器链接 (UALink) 工作的目的所在。

虽然 Scorpio P 系列交换机用于将 CPU 连接到 GPU、网络接口和存储,但 Scorpio 交换机还有另一种变体,称为 X 系列,用于创建 GPU 网格,就像 Nvidia 的 NVSwitch 一样 - 显然带宽要少得多。这款 X 系列芯片需要定制参与,正如您所预料的那样,Astera 在 GTC 2025 上肯定没有谈论这款芯片。

P 系列和 X 系列交换机均向后兼容 PCI-Express 1.0 之前的设备。

以下是 Astera 就 PCI-Express 6.0 与 Nvidia 配合使用所进行的测试:

在这种情况下,它是一个 PCI-Express 6.0 x16 链路,它将 Aries 重定时器连接到 Blackwell GPU,以扩展 PCI-Express 链路的范围。盒子中的 Scorpio P 系列交换机链接到 Intel Xeon 5.0 处理器和 Nvidia ConnectX-7 网络接口,降级到 PCI-Express 5.0。Micron Technology 闪存驱动器使用以 PCI-Express 6.0 速度运行的单个 x1 通道进行存储。Scorpio 交换机有 64 个 PCI-Express 6.0 信号通道,此设置使用其中的 49 个通道,其中 32 个以 PCI-Express 5.0 半速运行。

Scorpio P 系列交换机于 2024 年 9 月开始提供样品,目前正在加速生产。

Astera 与 ODM 合作伙伴 Wistron 展示的机器是 Nvidia MGX H100/H200 NVL 推理服务器的实现。MGX模块化机器系列于 2023 年 5 月推出,其理念是将 GPU 加速应用于具有适合用途的外形尺寸的不同类型的工作负载。

从概念上讲,MGX 推理服务器如下所示:

这是一个 4U 机架式机箱,后面有一台双插槽 X86 服务器作为系统主机,配有 PCI-Express 交换机,用于连接到两个 BlueField 3 DPU(前面右侧)和八个 H100 或 H200 PCI-Express 5.0 GPU(前面占用了大部分空间)。没有 NVSwitch 内存互连,但每个 GPU 卡上都有 NVLink 内存端口,可以使用桥接器将两个或四个相邻的 GPU 连接起来,形成共享内存配置,以共享内存并利用更大的内存进行计算。

该 MGX 参考架构的配置为每对 GPU 配备一个 BlueField 3 DPU 和四个 ConnectX-7 SmartNIC。

以下是每个 Scorpio 交换机有两个 GPU 和一个 NIC 的 MGX 推理系统的示意图:

每对 GPU 都通过 NVLink 桥连接,它们都拥有一个 ConnectX-7 NIC,它们与外界共享并通过 Scorpio P 系列交换机进行通信。我们推测,这对 GPU 还可以通过 Scorpio 交换机以 PCI-Express 6.0 速度进行通信,如果 GPU 可以使用 6.0,则 x16 通道的速度为 256 GB/秒,如果 GPU 只能使用 5.0,则速度仅为 128 GB/秒。

主机 CPU 和 GPU 之间需要多少带宽,以及 NVLink NUMA 的级别(NVL2 或 NVL4)取决于您正在进行的 AI 类型。

关于这款 MGX 推理服务器设计的一个重要特点是它是模块化的。(因此 MGX 名称中带有模块化 GPU——我们不确定 X 代表什么,但它可能不是一个吻,也不是足球队的防守队员......)

后面的主机计算和内存板可以独立于前面的 GPU/NIC/DPU 板进行升级。因此,例如,如果您在 GPU 计算板中使用 Scorpio P 系列 PCI-Express 6.0 交换机,那么您现在可以在 PCI-Express 5.0 模式下运行它,并立即链接到任何 X86 或 Arm 服务器节点,并在此类处理器上市时将其换成带有 PCI-Express 6.0 插槽的新服务器卡。如果您现在有带有 PCI-Express 5.0 x16 插槽的旧款 Hopper GPU,您可以在今天的 MGX 设计中使用它们,并在将来的某个时间换上新的 Blackwell PCI-Express 6.0 GPU。

以下是纬创公司实际的 xWing 推理服务器 GPU 系统板:

该设计每个 Scorpio 交换机有两个 GPU,并且在主板左侧有一个 NIC 插槽。

任何 MGX 推理服务器设计都无法对具有数万亿个参数的 GenAI 模型进行推理。但它们的大小适合大量 AI 推理工作负载。