Fermi架构解析：GPU通用计算新时代

需积分: 9 150 浏览量更新于2024-07-25 收藏 1.4MB PDF 举报

"本文是关于Fermi架构的详尽解析，主要涵盖了Fermi GPU的设计理念、核心架构以及性能特点。" Fermi架构，以其代号GF100闻名，是由NVIDIA研发的一款具有革命性的GPU。该架构历经4年的精心研发，集成了大量的技术创新，不仅在图形处理能力上有所提升，更将通用计算的重要性提升到了新的层次。Fermi架构GPU的发布引起了业界的广泛关注，预示着一场GPU技术领域的激烈竞争。首先，Fermi架构的核心设计是基于40纳米工艺制造的一块大芯片，内含30亿个晶体管，这在当时是半导体工业的一个巨大突破。如此高集成度的单片芯片设计，确保了Fermi能够容纳丰富的运算和控制资源，以及充足的缓存，从而满足高性能计算的需求。不同于以往专注于图形处理的GPU，Fermi架构的创新之处在于它兼顾了图形处理和通用计算。例如，它采用了全局ECC（错误校验码）设计，增强了数据处理的可靠性；引入了可读写的L1缓存和L2缓存，以及更大的shared memory，这些特性使得Fermi更加适合执行复杂的计算任务。此外，NVIDIA还放弃了传统的“流处理器”称呼，改用CUDA核心，进一步强调了其在通用计算上的定位。 Fermi架构采用了一种四级分级的设计，包括4个Graphics Processing Clusters (GPCs)，每个GPC包含4个Streaming Multiprocessors (SMs)，每个SM又由32个CUDA核心组成。这种结构让GF100可以被视为一颗4核心的GPU，每个GPC都具备高度的处理能力。这样的设计显著提高了并行计算的能力，使得Fermi在处理复杂计算任务时表现出色。在缓存方面，GF100不仅有12KB的L1纹理缓存，还首次在GPU中引入了64KB的RAM，用于支持可配置的shared memory和L1缓存。这样的设计极大地优化了数据访问效率，减少了内存延迟，从而提升了整体性能。在几何处理能力上，Fermi架构引入了Tessellation细分曲面单元，这是对DirectX 11技术的响应。通过硬件Tessellation，Fermi显著提升了几何性能，弥补了过去显卡在处理复杂几何形状时的瓶颈，为3D渲染带来了质的飞跃。 Fermi架构的GPU——GF100，不仅在图形处理能力上有显著提升，更是在通用计算领域开辟了新的道路。它的出现，不仅标志着NVIDIA在GPU设计上的创新，也为整个行业设定了新的标准，为未来的高性能计算和游戏体验奠定了坚实的基础。

CUDA 内核。每个 SM 是一个高度平行处理器，最多支持在任何规定时间完成对 48 个 warp

的处理。每个 CUDA Core 是一个统一的处理器核心，执行顶点，像素，几何和 kernel

函数。一个统一的 768KB 二级缓存架构负责线程加载、存储和纹理操作。每组 SM 里四个

纹理单元，共享使用 12KB 一级纹理缓存，并和整个芯片共享 768KB 二级缓存。每个纹理

单元每周期可计算一个纹理寻址、拾取四个纹理采样，并支持 DX11 新的压缩纹理格式。

Fermi 架构 GF100 核心照片

GF100 拥有 48 个 ROP 单元，用来执行抗锯齿和原子内存操作。这 48 个 ROP 单元被

分配为 6 组，每组 8 个，每组 ROP 配备一个内存控制器。内存控制器、L2 高速缓存和 ROP

单元是紧密耦合的，也可以成组屏蔽。所有 ROP 单元和整个芯片共享 768KB 二级缓存

（GT200 里是独享）。

关于运行频率，在每一组 SM 阵列里，纹理单元、一二级缓存、ROP 单元和各个单元的

频率也都完全不同于以往。除了 ROP 单元和二级缓存，几乎其他所有单元的频率都和

Shader 频率（NVIDIA 暂称之为 GPC 频率）关联在一起：一级缓存和 Shader 单元本身

是全速，纹理单元、光栅引擎、多形体引擎则都是一半。

Fermi 颠覆了 G80 以来的分频模式，曾今我们称固定单元的频率是 GPU 核心频率，而

流处理器频率较高，它的速度是核心的 2.15 或者 2.25 倍。从 Fermi 开始“核心频率”就是

流处理器频率（也可以称为 GPC 频率），而固定单元的频率默认为“核心频率”的一半，未来

的超频模式肯定要发生变化了。

●Fermi GPC 运算架构

剩余37页未读，继续阅读

cudaer

粉丝: 7
资源: 38

Fermi架构解析：GPU通用计算新时代

Fermi架构——白皮书-中文详细版.pdf

fermi 架构介绍

Fermi架构介绍

Fermi架构CUDA编程与优化-full edition

Fermi架构GPU：改变历史的通用计算革命

NVIDIA Fermi架构白皮书中文翻译详解

NVIDIA Fermi架构：CUDA计算新篇章

GPU并行计算：Fermi架构与CUDA编程

Fermi架构GPU深度解析：Tesla 20系列

NVIDIA Fermi架构详解：GPU计算新篇章

最新资源