利用 PCI-Express 交换机实现面向未来的推理服务器-EW帮帮网

在数据中心系统的历史上，没有比被 Nvidia 选为其 AI 系统的组件供应商更高的赞誉了。

这就是为什么新兴的互连芯片制造商 Astera Labs 感到十分高兴，因为该公司正在 PCI-Express 交换机、PCI-Express 重定时器和 CXL 内存控制器方面与 Broadcom 和 Marvell 等公司展开竞争。当 Nvidia 批准即将推出的服务器节点使用“Blackwell”GPU 加速器时，该公司感到十分高兴，该加速器使用 PCI-Express 6.0 交换机和重定时器将 X86 GPU 连接到其 Blackwell GPU，在某些情况下还包括网络接口卡和存储。

MGX 是一套服务器参考设计，包括 Nvidia 自己的 AI 野兽的基本构建块以及 OEM 和 ODM 创建的克隆，以便他们能够分得一杯羹。

在上周举行的 2025 年 GPU 技术大会上，Astera Labs 做了两件事。首先，它展示了其“Scorpio”P 系列 PCI-Express 6.0 结构交换机和“Aries”PCI-Express 6.0 重定时器与 Nvidia 的“Hopper”H100 和 H200 GPU 以及 HGX 设置中使用的各种 Blackwell B100 和 B200 GPU 的互操作性（熟悉的 2 CPU 乘以 8 GPU 设计，现在称为 Hoppers 的 HGX NVL8 和 Blackwells 的 DGX NVL16）。其次，Astera 展示了由 ODM 服务器制造商 Wistron 设计的基于 Hopper GPU 的推理服务器，并使用其交换机和重定时器将组件连接在一起。

目前还不清楚 Nvidia 本身在其系统中使用 Astera 芯片的情况，我们只是利用这次公告作为研究 Astera 提供的产品的机会，但 Nvidia 硬件工程副总裁 Andrew Bell 在一份声明中表示，Scorpio 交换机与“基于 Blackwell 的 MGX 平台”集成，所以你明白了。基于 DSP 的 Aries 重定时器没有被提及，但如果您需要扩展 PCI-Express 5.0 或 6.0 链路以将组件空间稍微拉远一些，您也需要这些东西。

从概念上来说，一切看起来是这样的：

在上图的中间，结构可以是任何 PCI-Express 交换机，但 Astera 无疑更希望它是自己的 Scorpio 交换机，它也显示了这一点。使用来自两个不同供应商的交换机和重定时器可能会带来麻烦。

如您所见，您可以使用重定时器将 GPU 链接到网络或存储结构，以及用于将 GPU 直接绑定在一起的不同 PCI-Express 结构，就像 Nvidia 使用 NVLink 端口和 NVSwitch 交换机所做的那样。目前，GPU 加速器还没有跨此 PCI-Express 结构的内存寻址，但这正是由 AMD、Broadcom、思科系统、谷歌、惠普企业、英特尔、Meta Platforms 和微软牵头的超级加速器链接 (UALink) 工作的目的所在。

虽然 Scorpio P 系列交换机用于将 CPU 连接到 GPU、网络接口和存储，但 Scorpio 交换机还有另一种变体，称为 X 系列，用于创建 GPU 网格，就像 Nvidia 的 NVSwitch 一样 - 显然带宽要少得多。这款 X 系列芯片需要定制参与，正如您所预料的那样，Astera 在 GTC 2025 上肯定没有谈论这款芯片。

P 系列和 X 系列交换机均向后兼容 PCI-Express 1.0 之前的设备。

以下是 Astera 就 PCI-Express 6.0 与 Nvidia 配合使用所进行的测试：

在这种情况下，它是一个 PCI-Express 6.0 x16 链路，它将 Aries 重定时器连接到 Blackwell GPU，以扩展 PCI-Express 链路的范围。盒子中的 Scorpio P 系列交换机链接到 Intel Xeon 5.0 处理器和 Nvidia ConnectX-7 网络接口，降级到 PCI-Express 5.0。Micron Technology 闪存驱动器使用以 PCI-Express 6.0 速度运行的单个 x1 通道进行存储。Scorpio 交换机有 64 个 PCI-Express 6.0 信号通道，此设置使用其中的 49 个通道，其中 32 个以 PCI-Express 5.0 半速运行。

Scorpio P 系列交换机于 2024 年 9 月开始提供样品，目前正在加速生产。

Astera 与 ODM 合作伙伴 Wistron 展示的机器是 Nvidia MGX H100/H200 NVL 推理服务器的实现。MGX模块化机器系列于 2023 年 5 月推出，其理念是将 GPU 加速应用于具有适合用途的外形尺寸的不同类型的工作负载。

从概念上讲，MGX 推理服务器如下所示：

这是一个 4U 机架式机箱，后面有一台双插槽 X86 服务器作为系统主机，配有 PCI-Express 交换机，用于连接到两个 BlueField 3 DPU（前面右侧）和八个 H100 或 H200 PCI-Express 5.0 GPU（前面占用了大部分空间）。没有 NVSwitch 内存互连，但每个 GPU 卡上都有 NVLink 内存端口，可以使用桥接器将两个或四个相邻的 GPU 连接起来，形成共享内存配置，以共享内存并利用更大的内存进行计算。

该 MGX 参考架构的配置为每对 GPU 配备一个 BlueField 3 DPU 和四个 ConnectX-7 SmartNIC。

以下是每个 Scorpio 交换机有两个 GPU 和一个 NIC 的 MGX 推理系统的示意图：

每对 GPU 都通过 NVLink 桥连接，它们都拥有一个 ConnectX-7 NIC，它们与外界共享并通过 Scorpio P 系列交换机进行通信。我们推测，这对 GPU 还可以通过 Scorpio 交换机以 PCI-Express 6.0 速度进行通信，如果 GPU 可以使用 6.0，则 x16 通道的速度为 256 GB/秒，如果 GPU 只能使用 5.0，则速度仅为 128 GB/秒。

主机 CPU 和 GPU 之间需要多少带宽，以及 NVLink NUMA 的级别（NVL2 或 NVL4）取决于您正在进行的 AI 类型。

关于这款 MGX 推理服务器设计的一个重要特点是它是模块化的。（因此 MGX 名称中带有模块化 GPU——我们不确定 X 代表什么，但它可能不是一个吻，也不是足球队的防守队员......）

后面的主机计算和内存板可以独立于前面的 GPU/NIC/DPU 板进行升级。因此，例如，如果您在 GPU 计算板中使用 Scorpio P 系列 PCI-Express 6.0 交换机，那么您现在可以在 PCI-Express 5.0 模式下运行它，并立即链接到任何 X86 或 Arm 服务器节点，并在此类处理器上市时将其换成带有 PCI-Express 6.0 插槽的新服务器卡。如果您现在有带有 PCI-Express 5.0 x16 插槽的旧款 Hopper GPU，您可以在今天的 MGX 设计中使用它们，并在将来的某个时间换上新的 Blackwell PCI-Express 6.0 GPU。

以下是纬创公司实际的 xWing 推理服务器 GPU 系统板：

该设计每个 Scorpio 交换机有两个 GPU，并且在主板左侧有一个 NIC 插槽。

任何 MGX 推理服务器设计都无法对具有数万亿个参数的 GenAI 模型进行推理。但它们的大小适合大量 AI 推理工作负载。

利用 PCI-Express 交换机实现面向未来的推理服务器

网站公告

今日签到

热门文章

最新发布