超能网|双倍CUDA单元和良心价格!新一代Ampere GPU架构和首发显卡简析


今天不管对DIY硬件业界还是对游戏业界来说 , 都是个大日子 , 因为NVIDIA发布了新一代在性能上有巨大飞跃的RTX 30系显卡 。 首批的三张显卡在性能方面可谓是有着非常大的提升 , 就算其中定位最低的RTX 3070在官方宣传口径中都能有超过上一代旗舰卡RTX 2080 Ti的性能 。 那么 , RTX 30系显卡是如何做到如此巨大的性能提升幅度的呢?本文就基于官方目前给出的信息对RTX 30系显卡的核心 , 也就是代号为Ampere的GPU进行简要的分析 , 由于官方尚未给出新一代显卡的白皮书 , 故本文只能挖掘到较为浅层的一些信息 。

超能网|双倍CUDA单元和良心价格!新一代Ampere GPU架构和首发显卡简析
本文插图

Turing架构是NVIDIA的初代RTX架构 , 它首次引入了RT Core , 并升级了从Volta架构开始引入的Tensor Core 。

超能网|双倍CUDA单元和良心价格!新一代Ampere GPU架构和首发显卡简析
本文插图

它的意义在于将整个GPU的处理管线分成多个部分 , 早前的GPU只需要全力渲染画面即可 , 而在引入实时光线追踪特效之后 , GPU中的处理核心需要分心去算光线追踪特效 , 偏偏这部分又非常吃算力 , 会让传统的GPU浪费非常多的算力 。

超能网|双倍CUDA单元和良心价格!新一代Ampere GPU架构和首发显卡简析
本文插图

于是NVIDIA想到为实时光线追踪引入独立的硬件处理管线 , 也就是RT Core 。 但在开启实时光线追踪的情况下 , 单靠RT Core在那边加速仍然没法达成高帧数的目标 , 所以NVIDIA研发了DLSS技术 , 也就是利用机器学习 , 通过AI升频的方式将低分辨率的游戏图像实时处理成高分辨率的图像输出 。 因为降低了实际的渲染分辨率 , 所以大幅减轻了GPU的计算压力 , 从而达成开启实时光追下的流畅游戏 。

超能网|双倍CUDA单元和良心价格!新一代Ampere GPU架构和首发显卡简析
本文插图

但是 , Turing显卡的一大问题就是计算规模不够大 , 老黄在发布上也很坦诚的说 , 开了光追的Turing显卡表现和没开光追的Pascal差不太多(从图上甚至可以看到GTX 1080 Ti在非光追情况下的表现要优于光追场景下的RTX 2080 Super) 。 但是Turing GPU的工艺已经不允许NVIDIA往里面塞入更多的计算单元了 , 那么 , 是时候换工艺了 。

超能网|双倍CUDA单元和良心价格!新一代Ampere GPU架构和首发显卡简析
本文插图

与A100加速卡上那枚使用台积电N7工艺的GA100芯片不同的是 , NVIDIA选择和三星合作 , 定制了基于三星8nm工艺的制程 , 称为Samsung 8N(N for NVIDIA) 。 在面积最大的GA102芯片中 , NVIDIA塞入了280亿个晶体管 , 这个数字是TU102的1.5倍 , 但仍然比面向计算用途的GA100少很多(542亿) 。

超能网|双倍CUDA单元和良心价格!新一代Ampere GPU架构和首发显卡简析
本文插图

这多出来的1.5倍晶体管主要被用在加倍FP32单元上 , 从NVIDIA官网上的对比表我们即可看到这一明显的区别点 。

超能网|双倍CUDA单元和良心价格!新一代Ampere GPU架构和首发显卡简析
本文插图

以往在NVIDIA的GPU中 , 一个CUDA Core对应一个FP32计算单元 , 在Turing GPU上面 , NVIDIA加入了独立的整数计算单元 , 它与传统FP32计算单元的比例是1:1 , 到了Ampere上 , 因为对算力有非常高的需求 , NVIDIA直接选择把FP32单元的数量暴力翻倍 。 并且官方并没有采用一个CUDA Core对应两个FP32单元的计数方式 , 仍然保留了1:1的算法 , 所以我们看到了CUDA核心数量暴涨的一代显卡 , 下表对几代同级显卡的CUDA核心数量进行了对比:


推荐阅读