智东西深扒英伟达安培新架构,五大技术新招刀刀见血( 三 )
本文插图
1 、 TF32 和混合精度 BF16/FP16
TensorFloat-32(TF32)是NVIDIA A100中用于处理矩阵数学(即张量运算)的新数值格式 , 矩阵数学在AI及部分HPC运算中很常用 。
随着AI网络和数据集持续扩张 , 算力需求与日俱增 , 研究人员尝试用较低精度的数学计算来提升性能 , 但此前这样做需要调整一些代码 , 而新精度TF32既做到性能提升 , 同时又无需更改任务代码 。
新精度TF32与FP32一样都拥有8个指数位 , 能支持相同的数字范围;尾数位和FP16一样是10个 , 精度水平高于AI工作负载要求 。
本文插图
FP32是当前深度学习训练和推理中最常用的格式 , 而TF32的工作方式与FP32相似 , TF32 Tensor Core根据FP32数据的输入转换成TF32格式后进行运算 , 最后输出FP32格式的结果 。
借助于NVIDIA库 , 使用TF32 Tensor Core将A100单精度训练峰值算力提升至156 TFLOPS , 即V100 FP32的10倍 。
为了获得更好的性能 , A100还可使用FP16/BF16自动混合精度(AMP)训练 , 只需修改几行代码 , 就能将TF32性能再提高2倍 , 达到312 TFLOPS 。
本文插图
NVIDIA正与开发AI框架的开源社区合作 , 致力于使TF32成为A100 GPU上的默认训练模式 。
今年6月份 , 开发人员将可以在NGC的NVIDIA GPU加速软件列表中获取支持TF32的PyTorch版本和TensorFlow版本 。
2 、结构化稀疏
要实现A100 TF32运行速度提升20倍 , 还需用到第三代Tensor Core的另一个关键特性——结构化稀疏 。
稀疏方法对于算法工程师来说不算陌生 , 通过从神经网络中提取尽可能多不需要的参数 , 来压缩神经网络计算量 。 其难点在于如何兼顾更快的速度和足够的准确率 。
而安培架构中利用稀疏Tensor Core , 即做到了提供高达2倍的峰值吞吐量 , 同时不会牺牲深度学习核心矩阵乘法累加作业的准确率 。
这是少有的通过硬件对密集计算进行稀疏优化的方法 。
本文插图
该方法首先使用密集的权重训练网络 , 然后引入2:4细粒度结构稀疏模式进行剪枝 , 最后重新训练 , 然后重复训练步骤 , 采用和之前训练相同的超参数、初始化权重和零模式 。
具体压缩方式是限定只做50%稀疏 , 要求每相邻4个元素中最多有两个非零值 , 有index数据结构指示哪两个数据不被置零 。
权重经压缩后 , 可有效将 数学运算速度提高 2 倍 。
为什么理想性能上限可以提升2倍呢?如下图所示 , 矩阵A是一个16×16稀疏矩阵 , 稀疏性为50% , 遵循2:4稀疏结构 , 而矩阵B是一个只有A一半大小的16×8密集矩阵 。
本文插图
标准的矩阵乘积累加(MMA)操作不会跳过零值 , 而是计算整个16x8x16矩阵乘N个周期的结果 。
而使用稀疏MMA指令 , 矩阵A中每一行只有非零值的元素与矩阵B相应元素匹配 , 这将计算转换成一个更小的密集矩阵乘法 , 实现2倍的加速 。
在跨视觉、目标检测、分割、自然语言建模和翻译等数十种神经网络的评估中 , 该方法的推理准确率几乎没有损失 。
经结构化稀疏的A100 TF32 Tensor Core深度学习训练算力最高达到312 TFLOPS , 是V100 INT8峰值训练速度15.7 TFLOPS的20倍 。
经结构化稀疏的A100 INT8 Tensor Core执行深度学习推理速度最高达到1248 TOPS , 是V100 INT8峰值推理速度62 TOPS的20倍 。
推荐阅读
- 健康plus|因一根鱼刺他差点错失高考!医生:这几种东西先别给考生吃了
- |姐姐说,你头上不能没有这东西
- 进阶▲S20中388点券你可以得到这么多东西~
- 趣味社会学|我也只能放行,忘带驾驶证就算“无证驾驶”?交警:能拿出这东西
- 远藤周作如何通过小说来反思东西方文化的碰撞?
- 低价|3块钱包邮买一个快递盲盒,卖家声称无人认领低价处理,杭州姑娘拆开后里面是这东西
- 尚流传媒|《乘风破浪的姐姐》凭啥能火?深扒爆红综艺的运营套路
- 美食杰官方|这东西是肉类之王,脂肪极少,夏天常吃不怕胖,比羊肉还养人
- 钱江晚报|4岁孩子耳朵里掉出一颗白色小珠子,惊魂竟来自孩子爱玩的这东西
- 蓝迪潮搭美妆达人|明星之所以穿的如此吸睛,是因为衣服上多了这些东西
