当前位置:网站首页>英伟达 GPU 架构简史
英伟达 GPU 架构简史
2022-08-11 01:33:00 【扫地的小何尚】
英伟达 GPU 架构简史
尽管近年来 Nvidia GPU 确实更频繁地成为新闻,但它们绝不是新事物。事实上,多年来,Nvidia GPU 已经进行了多次迭代,GPU 架构也取得了进步。因此,让我们回顾一下最近的历史,以了解 GPU 是如何随着时间的推移而发展的。我们将通过探索自 2000 年以来发布的每个流行的 Nvidia GPU 微架构来做到这一点。
Kelvin
- Kelvin 于 2001 年发布,是 Nvidia 千年以来第一个新的 GPU 微架构。最初的 Xbox 游戏机使用带有 Kelvin 微架构的 NV2A GPU。 GeForce 3 和 GeForce 4 系列 GPU 是采用这种微架构发布的。
Rankine
- Rankine 是 2003 年发布的 Kelvin 的后续产品,用于 GeForce 5 系列的 Nvidia GPU。 Rankine 支持顶点和片段程序,并将 VRAM 大小增加到 256MB。
Curie
- Curie——GeForce 6 和 7 系列 GPU 使用的微架构——于 2004 年作为 Rankine 的继任者发布。Curie 将 VRAM 数量翻了一番,达到 512MB,并且是第一代支持 PureVideo 视频解码的 Nvidia GPU。
Tesla
Tesla GPU 微架构于 2006 年作为居里的继任者发布,为 Nvidia 的 GPU 产品线引入了几项重要变化。除了作为 GeForce 8、9、100、200 和 300 系列 GPU 使用的架构之外,Tesla 还被用于图形处理之外的用例的 Quadro 系列 GPU 使用。
令人困惑的是,Tesla 既是 GPU 微架构的名称,又是 Nvidia GPU 的品牌。 2020 年,英伟达决定停止使用特斯拉这个名称,以避免与流行的电动汽车品牌混淆。
Fermi
特斯拉的继任者费米于 2010 年发布。费米推出了多项增强功能,包括:
- 支持 512 个 CUDA 内核
- 64KB 的 RAM 和分区 L1 缓存/共享内存的能力
- 支持纠错码 (ECC)
Kepler
Kepler GPU 微架构作为 Fermi 2012 的继任者发布。对 Fermi 的主要改进包括:
一种新的流式多处理器架构,称为 SMX
支持 TXAA(一种抗锯齿方法)
CUDA 核心增加到 1536 个
耗电量少
支持通过 GPU 加速自动超频
支持 GPUDirect,它允许 GPU(在同一台计算机上或通过网络相互访问)在不访问 CPU 的情况下进行通信
Maxwell
2014 年发布的麦克斯韦是费米的继任者。根据 Nvidia 的说法,第一代 Maxwell GPU 与 Fermi 相比具有以下优势:
由于与控制逻辑分区、时钟门控、指令调度和工作负载平衡相关的增强,多处理器效率更高
每个流式多处理器上有 64KB 的专用共享内存
与 Fermi 使用的锁定/解锁范例相比,本机共享内存原子操作提供了性能改进
动态并行支持
Pascal
Pascal 在 2016 年接替 Maxwell。这个 Nvidia GPU 微架构提供了对 Maxwell 的改进,例如:
支持 NVLink 通信,与 PCIe 相比具有显着的速度优势
高带宽内存 2 (HBM2) - 4096 位内存总线,提供 720 GB 内存带宽
计算抢占
动态负载平衡以优化 GPU 资源利用率
Volta
Volta 是 2017 年发布的一个有点独特的微架构迭代。虽然以前的大多数微架构都用于消费类 GPU,但 Volta GPU 的营销目的是严格用于专业应用程序。 Volta 也是第一个使用张量核心的微架构。
张量核心是一种新型的处理核心,可以执行专门的数学计算。具体来说,张量核心执行支持人工智能和深度学习用例的矩阵运算。
Turing
- Turing 于 2018 年发布,除了支持 Tensor Cores 之外,还包括许多以消费者为中心的 GPU。 Turing 是 Nvidia 广受欢迎的 Quadro RTX 和 * GeForce RTX 系列 GPU 使用的微架构。这些 GPU 支持实时光线追踪(又名 RTX),这对于虚拟现实 (VR) 等计算量大的应用程序至关重要。
Ampere
- Ampere 微架构刚刚开始投放市场。 Ampere 旨在进一步实现高性能计算 (HPC) 和 AI 用例。 Ampere 的增强功能包括第三代 NVLink 和 Tensor 核心、结构稀疏性(将不需要的参数转换为零以启用 AI 模型训练)、第二代光线追踪核心、多实例 GPU (MIG) 以实现将 A100 GPU 逻辑分区为单个隔离和安全的 GPU 实例。
边栏推荐
- 软件测试面试题:单元测试的策略有哪些?
- Linux安装redis数据库
- 循环单词
- paddle2.3和torch1.8在SentenceBert上的性能对比
- 22. Inventory service
- MySQL Basics [Part 1] | Database Overview and Data Preparation, Common Commands, Viewing Table Structure Steps
- 88Q2110 access C45 phy address through C22
- SystemVerilog: Verifying knowledge bits and pieces
- Engineering Design of Single-sided PCB Routing Impedance
- More parameter exposure of Pico 4: Pancake + color perspective, and Pro version
猜你喜欢
【Video】Report Sharing | 2021 Insurance Industry Digital Insights
Apache Commons Configuration Remote Code Execution Vulnerability (CVE-2022-33980) Analysis & Reproduction
导入数据包上传宝贝提示“类目不能为空”是什么原因,怎么解决?
Mysql database installation and configuration detailed tutorial
paddle2.3和torch1.8在SentenceBert上的性能对比
进程间通信方式(2)有名管道
More parameter exposure of Pico 4: Pancake + color perspective, and Pro version
两日总结十一
【视频】报告分享|2021年保险行业数字化洞察
FPGA learning column (xinlinx) serial communication -
随机推荐
Deep Learning【第二章】
[ASM] The relationship between the role of the bytecode operation ClassWriter COMPUTE_FRAMES and visitMaxs
Shengxin experiment record (part2)--tf.reduce_sum() usage introduction
软件测试面试题:缺陷等级应如何划分?
软件测试面试题:在频繁的版本发布中,如何回归测试?
【微波工程学习记录1】功率分配器和定向耦合器
22、库存服务
[GXYCTF2019]BabySQli
【iframe父页面调用子页面的方法】踩坑:获取元素的时候需要用 `[x]`是关键,不能用`.eq(x)`否则获取不到。
22/8/9 Collection of Greedy Problems
ora-00001违反唯一约束
The statistical data analysis, interview manual"
The concept of services
软件测试面试题:Web服务器指标指标?
BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection Paper Notes
微服务概念
SQL语句--获取数据库表信息,表名、列名、描述注释等
winform下的富文本编辑器
报考PMP需要做些什么准备?
迭代器和生成器