智东西深扒英伟达安培新架构,五大技术新招刀刀见血( 二 )


黄仁勋介绍说 , 这是第一次能在一个平台上实现加速工作负载的横向扩展(scale out)和纵向扩展(scale up) 。
NVIDIA A100 GPU架构不仅可以加速大型复杂的工作负载 , 还可以有效地加速许多较小的工作负载 , 既能支持构建数据中心 , 同时可提供细粒度工作负载供应、更高的GPU利用率和改进的TCO 。
二、 GA100 基本架构:内存容量更大、带宽更快要在GPU上获得极致性能 , 对于CUDA人员来说可能更感兴趣的是GPU中的SM和内存子系统 。 我们可以从新一代GA100架构图中看到硬件结构的变化 。
智东西深扒英伟达安培新架构,五大技术新招刀刀见血
本文插图
▲GA100完整架构
图中上方是PCIe 4.0 , 带宽较PCIe 3.0增加1倍 , 使得GPU与CPU的通信速度更快 。 下方是12个高速连接NVLink 。
中间是SM和L2 Cache 。 可以看到 , 与V100不同 , A100中L2 Cache被分为两块 , 能提供的带宽也是V100的两倍 。
中间其他部分为计算和调度单元 , 包含8个GPC , 每个GPC内部有8个TPC , 每个TPC含两个SM 。 因此一个完整的GA100架构GPU有8x8x2=128个SM 。 每个SM中含有4个第三代Tensor Core , 即完整GA100架构GPU有512个Tensor Core 。
A100 GPU并不是完整版GA100架构芯片 , 包含了108个SM、432个Tensor Core 。 后期随着良品率的提升 , 我们或将看到更加完整的GA100架构GPU 。 与Volta、Turing架构相比 , 安培架构中每SM的计算能力增加了2倍 。
智东西深扒英伟达安培新架构,五大技术新招刀刀见血
本文插图
▲GA100 Streaming Multiprocessor(SM)
为了确保计算引擎得到充分利用 , 则需要更好的存储能力 。 GA100架构图左右两侧有6个HBM2内存模块 , 每个HBM2内存模块对应两个512-bit内存控制器 。
A100 GPU中有5个高速HBM2内存模块、10个内存控制器 , 容量达40GB , 显存带宽达到1.555 TB/s , 较上一代高出近70% 。
A100的片上存储空间也变得更大 , 包括40MB的L2 cache , 较上一代大7倍 。
智东西深扒英伟达安培新架构,五大技术新招刀刀见血
本文插图
A100 L2 cache可提供的读取带宽是V100的2.3倍 , 因而能以比从HBM2内存读写高得多的速度缓存和重复访问更大的数据集和模型 。 L2 cache residency control被用于优化容量利用率 , 可以管理数据以保存或从缓存中删除数据 。
为了提高效率和增强可扩展性 , A100增加了计算数据压缩 , 可节省高达4倍的DRAM读/写带宽、4倍的L2读带宽和2倍的L2容量 。
此外 , NVIDIA通过将L1 cache和shared memory单元结合到一个内存块的方式来提高内存访问的性能 , 同时简化了编程和调优步骤 , 并降低软件的复杂性 。
每个SM中的L1 cache和shared memory单元总容量达192 KB , 是此前V100的1.5倍 。
智东西深扒英伟达安培新架构,五大技术新招刀刀见血
本文插图
CUDA 11中还包含一个新的异步复制指令 , 可选择绕过L1 cache和寄存器文件(RF) , 直接将数据从global memory异步复制加载到shared memory中 , 从而显著提高内存复制性能 , 有效利用内存带宽并降低功耗 。
智东西深扒英伟达安培新架构,五大技术新招刀刀见血
本文插图
三、 AI 算力提升 20 倍是怎么实现的?AI和HPC算力提升 , 主要归功于安培架构中采用的第三代Tensor Core 。
NVIDIA第三代Tensor Core除了支持FP32和FP16外 , 通过引入新的精度TF32和FP64以加速AI及HPC应用 , 并支持混合精度BF16/FP16以及INT8、INT4、Binary 。
借由第三代Tensor Core的三类新特性 , A100 GPU的单精度AI训练和AI推理峰值算力均为上一代的20倍 , HPC峰值算力为上一代的2.5倍 。


推荐阅读