智东西深扒英伟达安培新架构,五大技术新招刀刀见血


智东西深扒英伟达安培新架构,五大技术新招刀刀见血
本文插图
芯东西(ID:aichip001)文 | 心缘
芯东西5月28日报道 , 两周前 , 英伟达(NVIDIA)厨房里的发布会吸引了全球AI领域的目光 。 联合创始人兼CEO黄仁勋对着一张砧板 , 密集释放一系列硬核新品 。
智东西深扒英伟达安培新架构,五大技术新招刀刀见血
本文插图
最强GPU、最强AI系统、比肩世界最强超算的AI集群、从嵌入式到边缘服务器的边缘AI产品……不愧是“财大气粗”又“技多不压身”的AI芯片霸主 , 这么多重磅产品一次性全部抛出 , 换作是其他公司 , 估计够开十场发布会了 。
而这些性能彪悍的 AI 黑科技背后 , 核心功臣正是 NVIDIA 第八代GPU架构 —— 安培( Ampere ) 。
昨日 , 我们远程连线NVIDIA GPU工程高级副总裁Jonah Alben、NVIDIA加速计算产品管理总监Paresh Kharya , 进一步加深对NVIDIA全新安培GPU架构完整面貌的理解 。
在此 , 我们将基于83页的《NVIDIA A100 Tensor Core GPU Architecture》白皮书及采访信息 , 提炼安培GPU架构在计算和内存层次结构的关键创新与改进 , 深度解析这一全新架构怎样实现NVIDIA迄今为止最大的性能飞跃 。
智东西深扒英伟达安培新架构,五大技术新招刀刀见血
本文插图
一、三年一剑! “ 安培 ” 出鞘从NVIDIA计算架构的进化历程来看 , NVIDIA计算卡的迭代时间并没有很固定 。
智东西深扒英伟达安培新架构,五大技术新招刀刀见血
本文插图
M40 GPU与K40间隔两年 , P100与M40间隔半年 , V100与P100间隔一年 , A100又与V100间隔三年 。
“憋”了三年的大招一出场 , 果然不同凡响 , 新A100 GPU、AI系统、AI超算均成绩斐然 。
A100 同时可提供训练、推理和数据分析 , 把 AI 训练和推理的算力提升到上一代 V100 的 20 倍 , 把 HPC 性能提升到 V100 的 2.5 倍 。
智东西深扒英伟达安培新架构,五大技术新招刀刀见血
本文插图
A100由基于安培架构的GA100 GPU提供支持 , 具有高度可扩展的特性 , 支持在单GPU和多GPU工作站、服务器、集群、云数据中心、边缘系统和超级计算机中为GPU计算和深度学习应用提供超强加速能力 。
以多GPU配置的集成底板形式出现的服务器构建块HGX A100最高可以组成拥有10 PFLOPS算力的超大型8-GPU服务器 。
集成了8个A100的AI系统DGX A100单节点算力达5 PFLOPS , 售价19.9万美元 。
140个DGX A100系统组成的DGX SuperPOD集群 , AI算力达700 PFLOPS , 跻身世界上最快的20台AI超级计算机之列 。
NVIDIA自家的超算SATURNV在添加4个DGX SuperPOD后 , 总算力从1.8 ExaFLOPS增至4.6 ExaFLOPS , 增涨155%有余 。
这些奔着突破算力极限而去的性能参数 , 离不开以NVIDIA新一代安培架构为核心的五大关键技术的支持 。
智东西深扒英伟达安培新架构,五大技术新招刀刀见血
本文插图
(1)安培架构:全球最大7nm芯片 , 拥有542亿个晶体管 , 采用40GB三星HBM2 , 内存带宽可达到1.6 Tbps 。
高带宽的HBM2内存和更大、更快的缓存为增加的CUDA Core和Tensor Core提供数据 。
(2)第三代Tensor Core:处理速度更快、更灵活 , TF32精度可将AI性能提升20倍 。
(3)结构化稀疏:进一步将AI推理性能提升2倍 。
(4)多实例GPU:每个GPU可分成7个并发实例 , 优化GPU利用率 。
(5)第三代NVLink和NVSwitch:高效可扩展 , 带宽较上一代提升2倍有余 。


推荐阅读