Compute Express Link CXL 3.0 是令人兴奋的分解构建块-EW帮帮网

本周在 FMS 2022 上，宣布了 CXL 3.0。这个新标准为 CXL 带来了许多非常酷的进步。它还伴随着 OpenCAPI 失去动力并将其 IP 引入 CXL。这个新的 CXL 3.0 版本仍为生态系统带来了更高级别的分解功能和更高的速度。
CXL 3.0 可组合系统示例

Compute Express Link CXL 3.0 是令人兴奋的分解构建块

CXL 联盟展示了 CXL 3.0 的新特性。我们应该很快注意到，即使设备是 CXL 2.0 设备，它也可以支持某些 CXL 3.0 功能。在 CXL 3.0 系统完全推出之前，我们可以看到设备开始支持一些 CXL 3.0 功能。
CXL 从 1.0 到 3.0 的演进
CXL 3.0 的最大特点之一是新的 CXL 开关和扇出功能。CXL 2.0 引入了交换，允许多个设备和主机位于一个 CXL 交换机级别。CXL 3.0 允许在 CXL 拓扑上拥有多层交换机。这允许更多设备，但也允许在每个 EDSFF 机柜中配备一个 CXL 交换机以及一个还连接主机的架顶式 CXL 交换机。
CXL 3.0 交换机扇出级联
CXL 还将 P2P 设备添加到设备通信。P2P 允许设备直接通信，而不需要通过主机通信。例如，我们今天在进行 NVIDIA GPU 服务器审查时已经看到了这一点。支持 P2P 的技术更高效，因此性能更好。
CXL 3.0 P2P 通信
CXL 3.0 增加了对一致内存共享的支持。这是一件大事，因为它允许系统共享内存，而不仅仅是在 CXL 2.0 术语中，在 CXL 2.0 中，一个内存设备可以被划分为多个主机/加速器。相反，CXL 允许内存由一致性域中的所有主机共享。这导致更有效地使用内存。例如，想象一个场景，其中许多主机或加速器正在访问同一个数据集。连贯地共享内存是一个更具挑战性的问题，但也能提高效率。
CXL 3.0 相干内存共享
使用 CXL 3.0 还可以使用池和共享。
CXL 内存池和共享
CXL 3.0 允许不同类型和数量的设备连接到主机上的给定根端口。 CXL 3.0 根端口到多种设备类型
PCIe 可以与交换机一起使用，但它被设计为使用树形架构。CXL 3.0 允许拓扑结构而不是树。对于 CXL 3.0，互连的基本拓扑结构和使用是它与我们迄今为止看到的 PCIe 拓扑结构的不同之处。有几家初创公司试图将 PCIe 放在一个结构上以实现相同的目标，因此这消除了对额外外部步骤的需求。
CXL 概述
凭借 CXL 3.0 的灵活性，这意味着结构可以成为结构上的各种端点。
CXL 示例
在这张幻灯片上，全局结构附加内存或 GFAM 可能看起来无伤大雅，但从概念上讲，它是一笔巨大的交易。在这种情况下，GFAM 被 CPU、GPU、NIC 等使用。当我们对AMD Milan-X 进行评测时，Milan-X CPU 的“秘诀”在于大缓存可以消除对主存的大量调用。当我们考虑使用没有本地内存的服务器时，这个概念变得非常强大，或者只有很少的本地内存，然后是一个在许多主机之间共享内存的 GFAM，尽管延迟更高。大型本地缓存有助于隐藏这种延迟，而 CXL 3.0 还允许数据集驻留在 GFAM 中，然后由许多 CPU 和加速器处理。
CXL GFAM Global Fabric 附加存储设备述
此外，GFAM 可以是不同的存储器类型，例如 DRAM 甚至闪存。想象一下未来的存储加速器可以在不使用主机 CPU 的情况下将数据从相干内存直接移动到闪存并返回。
CXL 3.0 GFAM 示例
虽然起初这两个示例可能看起来非常相似，但有一个重要的区别没有被强调。在上面，加速器直接在 CXL 交换机和 CXL 结构上进行通信。在下面的示例中，主机在 CXL 结构上进行通信。
CXL 3.0 高性能计算示例
CXL 人发给我们的最后一个例子可能是最深刻的。具有 CXL 结构/多级交换、共享内存等的 CXL 3.0 允许将系统分解到一个新的程度。这一代将开始允许真正的分解或实现能够添加计算、内存和更远距离网络的愿景。
CXL 3.0 可组合系统示例
本地内存仍然不会完全消失。与我们通常在本地内存中看到的相比，使用这种方法的 CXL 具有更低的带宽和更高的延迟。相反，它允许的是更大的系统和更高效/更灵活的系统设计。