NVIDIA GPU架构代号

发布于:2025-07-10 ⋅ 阅读:(29) ⋅ 点赞:(0)

以下是按照发布年份列出的 NVIDIA GPU 架构代号以及对应的主计算能力相关信息:

  1. Tesla 架构(2006 年):是 NVIDIA 首个通用 GPU 计算架构,具有 128 个流处理器,带宽高达 86GB/s,开启了 GPU 从专用图形处理器向通用数据并行处理器转变的历程,计算能力无明确官方统一标准表述,从后续架构计算能力演进推测其相对较低。
  2. Fermi 架构(2009 年):第一款采用 40nm 制程的 GPU,Fermi GTX 480 拥有 480 个流处理器,带宽达到 177.4GB/s,计算能力相比 Tesla 架构有显著提升,大约为 Tesla 架构的 2 倍左右,计算能力无官方标准特定值,按后续标准推测大概在 2.0 左右级别(此为推测,仅供理解其相对性能)。
  3. Kepler 架构(2012 年):采用 28nm 制程,是首个支持超级计算和双精度计算的 GPU 架构。Kepler GK110 具有 2880 个流处理器和高达 288GB/s 的带宽,计算能力适用范围为 Compute Capability 3.0、3.2、3.5、3.7。
  4. Maxwell 架构(2014 年):在功耗效率、计算密度上获得重大提升。GM200 具有 3072 个 CUDA 核心和 336GB/s 带宽,功耗只有 225W。计算能力适用范围为 Compute Capability 5.0、5.2、5.3。
  5. Pascal 架构(2016 年):采用 16nm FinFET Plus 制程,增强了 GPU 的能效比和计算密度。Pascal GP100 具有 3840 个 CUDA 核心和 732GB/s 的显存带宽。计算能力适用范围为 Compute Capability 7.0、7.2。
  6. Volta 架构(2017 年):新增了张量核心,可大大加速人工智能和深度学习的训练与推理。Volta GV100 具有 5120 个 CUDA 核心和 900GB/s 的带宽,加上 640 个张量核心,AI 计算能力达到 112TFLOPS,计算能力为 Compute Capability 7.5。
  7. Turing 架构(2018 年):新增了光线追踪核心(RT Core),可硬件加速光线追踪运算。Turing TU102 具有 4608 个 CUDA 核心、576 个张量核心和 72 个 RT 核心。计算能力适用范围为 Compute Capability 7.5(部分型号),一些新型号可达到 Compute Capability 8.9(如 RTX 40 系列部分)。
  8. Ampere 架构(2020 年):在人工智能、光线追踪和图形渲染等方面性能大幅跃升,功耗显著降低。Ampere GA100 具有 6912 个 CUDA 核心、108 个张量核心和多个 RT 核心。计算能力为 Compute Capability 8.0,部分衍生型号如 A100 在特定计算场景下性能相比 Volta 架构提升约 20 倍(AI 训练和推理),高性能计算(双精度运算)方面提升 2.5 倍。
  9. Hopper 架构(2022 年):面向 AI/HPC,H100 支持 Transformer 引擎,计算能力为 Compute Capability 9.0。
  10. Blackwell 架构(2024 年):新一代 AI 架构,针对大模型训练优化,代表显卡有 GeForce RTX 50 系列等,计算能力为 Compute Capability 12.0。

NVIDIA Jetson Orin 和 Drive Orin 上的 GPU 均为 Ampere 架构。

以 Jetson AGX Orin 为例,其 GPU 包含 2048 个 CUDA 核心和 64 个 Tensor Core,由 2 个图形处理簇(GPC)组成,每个 GPC 包含 4 个纹理处理簇(TPC),每个 TPC 由 2 个流处理器(SM)构成。

一个SM流多处理器最多能拥有的线程块的个数,一个SM最多能拥有的线程个数。

不同 NVIDIA GPU 架构中,SM 流多处理器最多能拥有的线程块个数和线程个数有所不同,具体如下:

  • Fermi 架构:每个 SM 最多并行执行 1024 个线程。由于 CUDA 通常限制每个线程块的线程数为 512(计算能力 2.0 以下)或 1024(计算能力 2.0 及以上),若按每个线程块 1024 个线程计算,一个 SM 最多能拥有 1 个线程块。
  • Kepler 架构:每个 SM 支持的最大线程数为 2048 个,对应 64 个 warp(每个 warp 包含 32 个线程)。一个线程块最大线程数通常为 1024 个,此时一个 SM 最多能拥有 2 个线程块。
  • Maxwell 架构:以 GM204 为例,每个 SM 的专用共享内存提高到 96KB,每个线程块的最大共享内存仍是 48KB,每个 SM 最多可拥有 32 个活动线程块。每个线程块最大线程数一般为 1024 个,所以一个 SM 最多能拥有 1024 个线程。
  • Pascal 架构:通常情况下,每个 SM 可以支持多个线程块,具体数量会受到共享内存、寄存器等资源限制。每个 SM 最多能拥有的线程数一般为 2048 个。若每个线程块按 1024 个线程计算,最多能拥有 2 个线程块。
  • Volta 架构:虽然暂无公开的明确资料表明单个 SM 最多能拥有的线程块个数,但通常每个 SM 可支持较多线程块,受限于共享内存和寄存器资源等。每个 SM 可支持的线程数较多,一般认为可达 2048 个左右,若线程块按 1024 个线程算,最多有 2 个线程块。
  • Turing 架构:与 Volta 架构类似,单个 SM 最多能拥有的线程块个数取决于具体芯片设计和资源分配,通常也能支持多个。每个 SM 最多能拥有的线程数大约为 2048 个,若线程块为 1024 个线程,最多 2 个线程块。
  • Ampere 架构:每个 SM 包含的 CUDA 核心等资源进一步增加,单个 SM 最多能拥有的线程块个数根据实际资源使用情况而定,一般可支持多个。每个 SM 最多能拥有的线程数通常为 2048 个左右,若按每个线程块 1024 个线程,最多 2 个线程块。
  • Hopper 架构:以 H100 为例,每个 SM 可以同时管理的线程块数量上限为 32 个,每个 SM 最多可以支持 2048 个线程。
  • Blackwell 架构:暂无公开的详细资料说明其单个 SM 最多能拥有的线程块个数和线程个数,但作为新一代架构,预计在性能上会有进一步提升,可能保持或提高与 Hopper 架构相近的水平。


网站公告

今日签到

点亮在社区的每一天
去签到