智东西深扒英伟达安培新架构,五大技术新招刀刀见血( 四 )
本文插图
3 、双精度 FP64 DMMA
TF32主要用于加速AI运算 , 而HPC吞吐量的提升主要源自引入对经过IEEE认证的FP64精度的支持 。
A100上的双精度矩阵乘法加法指令取代了V100上的8条DFMA指令 , 减少了指令取用、调度开销、寄存器读取、数据路径功率和shared memory读取带宽 。
支持IEEE FP64精度后 , A100 Tensor Core峰值算力可达19.5 TFLOPS , 是V100 FP64 DFMA的2.5倍 。
本文插图
四、多实例 GPU :将 A100 一分为七A100是第一个内置弹性计算技术的多实例GPU(MIG , Multi-Instance GPU) 。
MIG可以把GPU做物理切割 , 由于A100上有7个GPU , 加之考虑到资源调度情况 , A100最多可分割成7个独立的GPU实例 。
如果将A100分成7个GPU实例 , 1个GPU实例的算力约等同于一颗V100 , 也就是说A100能提供相当于V100的7倍的计算资源 。
本文插图
MIG的核心价值是可以为不同类型的工作负载灵活提供规模适配的GPU资源 。
如果不使用MIG , 同一GPU上运行的不同任务可能会争用相同的资源 , 挤占其他任务的资源 , 导致多项任务无法并行完成 。
而使用MIG后 , 不同任务可以在不同的GPU实例上并行运行 , 每个实例都拥有各自专用的SM、内存、L2缓存和带宽 , 从而实现可预测的性能 , 并尽可能提升GPU利用率 。
本文插图
这为工作负载提供稳定可靠的服务质量和有效的故障隔离 , 假设某一实例上运行的应用出现故障 , 不会影响到其他实例上运行的任务 。
管理人员还可动态地重新配置MIG实例 , 比如白天用7个MIG实例做低吞吐量推理 , 夜间将其重新配置成一个大型MIG实例做AI训练 。
这对拥有多租户用例的云服务提供商尤其有益 , 资源调度更加灵活 , 运行任务不会彼此影响 , 进一步增强安全性 。
本文插图
此外 , CUDA编程模式没有变化 , 容器中的AI模型和HPC应用可通过NVIDIA Container Runtime直接在MIG实例上运行 。
五、第三代互联技术:让 GPU 互联再提速MIG是scale-out的主要驱动力 , 而实现scale-up则需要更好的通信技术 , 即GPU与GPU之间的“高速公路”——NVLink和NVSwitch 。
标准PCIe连接因带宽有限 , 在多GPU系统中通常会造成瓶颈 , 高速、直接的GPU到GPU互联技术NVLink应运而生 。
NVLink可将多个NVIDIA GPU连成一个巨型GPU来运行 , 从而在服务器上提供高效的性能扩展 , A100使用NVLink的GPU到GPU带宽比PCIe快得多 。
本文插图
A100中有12个第三代NVLink连接 , 每个差分信号线的速率可达到50 Gb/s , 几乎是V100的2倍 。
每个NVLink链路在每个方向上有4对差分信号线 , 因此单向通信能力是50×4÷8=25 GB/s , 双向即50 GB/s 。 12个第三代NVLink的总带宽则可达到600 GB/s , 即V100的两倍 。
相比之下 , 上一代V100中有6个NVLink , 每个NVLink每个方向上有8对差分信号线 , 总带宽为300 GB/s 。
每个GPU上的NVLink可高速连接到其他GPU和交换机 , 为了扩展到更大的系统 , 则需要NVIDIA NVSwitch将多个NVLink加以整合 。
NVIDIA NVSwitch是以NVLink先进的通信能力为基础的节点交换架构 , 可在单个服务器节点中支持8到16个全互联GPU , 使得AI性能足以更高效地扩展到多个GPU 。
推荐阅读
- 健康plus|因一根鱼刺他差点错失高考!医生:这几种东西先别给考生吃了
- |姐姐说,你头上不能没有这东西
- 进阶▲S20中388点券你可以得到这么多东西~
- 趣味社会学|我也只能放行,忘带驾驶证就算“无证驾驶”?交警:能拿出这东西
- 远藤周作如何通过小说来反思东西方文化的碰撞?
- 低价|3块钱包邮买一个快递盲盒,卖家声称无人认领低价处理,杭州姑娘拆开后里面是这东西
- 尚流传媒|《乘风破浪的姐姐》凭啥能火?深扒爆红综艺的运营套路
- 美食杰官方|这东西是肉类之王,脂肪极少,夏天常吃不怕胖,比羊肉还养人
- 钱江晚报|4岁孩子耳朵里掉出一颗白色小珠子,惊魂竟来自孩子爱玩的这东西
- 蓝迪潮搭美妆达人|明星之所以穿的如此吸睛,是因为衣服上多了这些东西
