超能网|双倍CUDA单元和良心价格!新一代Ampere GPU架构和首发显卡简析
今天不管对DIY硬件业界还是对游戏业界来说 , 都是个大日子 , 因为NVIDIA发布了新一代在性能上有巨大飞跃的RTX 30系显卡 。 首批的三张显卡在性能方面可谓是有着非常大的提升 , 就算其中定位最低的RTX 3070在官方宣传口径中都能有超过上一代旗舰卡RTX 2080 Ti的性能 。 那么 , RTX 30系显卡是如何做到如此巨大的性能提升幅度的呢?本文就基于官方目前给出的信息对RTX 30系显卡的核心 , 也就是代号为Ampere的GPU进行简要的分析 , 由于官方尚未给出新一代显卡的白皮书 , 故本文只能挖掘到较为浅层的一些信息 。
本文插图
Turing架构是NVIDIA的初代RTX架构 , 它首次引入了RT Core , 并升级了从Volta架构开始引入的Tensor Core 。
本文插图
它的意义在于将整个GPU的处理管线分成多个部分 , 早前的GPU只需要全力渲染画面即可 , 而在引入实时光线追踪特效之后 , GPU中的处理核心需要分心去算光线追踪特效 , 偏偏这部分又非常吃算力 , 会让传统的GPU浪费非常多的算力 。
本文插图
于是NVIDIA想到为实时光线追踪引入独立的硬件处理管线 , 也就是RT Core 。 但在开启实时光线追踪的情况下 , 单靠RT Core在那边加速仍然没法达成高帧数的目标 , 所以NVIDIA研发了DLSS技术 , 也就是利用机器学习 , 通过AI升频的方式将低分辨率的游戏图像实时处理成高分辨率的图像输出 。 因为降低了实际的渲染分辨率 , 所以大幅减轻了GPU的计算压力 , 从而达成开启实时光追下的流畅游戏 。
本文插图
但是 , Turing显卡的一大问题就是计算规模不够大 , 老黄在发布上也很坦诚的说 , 开了光追的Turing显卡表现和没开光追的Pascal差不太多(从图上甚至可以看到GTX 1080 Ti在非光追情况下的表现要优于光追场景下的RTX 2080 Super) 。 但是Turing GPU的工艺已经不允许NVIDIA往里面塞入更多的计算单元了 , 那么 , 是时候换工艺了 。
本文插图
与A100加速卡上那枚使用台积电N7工艺的GA100芯片不同的是 , NVIDIA选择和三星合作 , 定制了基于三星8nm工艺的制程 , 称为Samsung 8N(N for NVIDIA) 。 在面积最大的GA102芯片中 , NVIDIA塞入了280亿个晶体管 , 这个数字是TU102的1.5倍 , 但仍然比面向计算用途的GA100少很多(542亿) 。
本文插图
这多出来的1.5倍晶体管主要被用在加倍FP32单元上 , 从NVIDIA官网上的对比表我们即可看到这一明显的区别点 。
本文插图
以往在NVIDIA的GPU中 , 一个CUDA Core对应一个FP32计算单元 , 在Turing GPU上面 , NVIDIA加入了独立的整数计算单元 , 它与传统FP32计算单元的比例是1:1 , 到了Ampere上 , 因为对算力有非常高的需求 , NVIDIA直接选择把FP32单元的数量暴力翻倍 。 并且官方并没有采用一个CUDA Core对应两个FP32单元的计数方式 , 仍然保留了1:1的算法 , 所以我们看到了CUDA核心数量暴涨的一代显卡 , 下表对几代同级显卡的CUDA核心数量进行了对比:
推荐阅读
- 超能网|本文约 800 字,4 张图表,正努力加载…
- 超能网|AMD发布Zen 3架构Ryzen 5000系列处理器,最多16核,IPC激增19%
- |不到4000元的超薄笔记本推荐——宏基新蜂鸟3移动超能版
- JZone默咖|轻薄本新选择,宏碁新蜂鸟3移动超能版浅谈
- 超快|iQOO 5 Pro美图欣赏!120W 超快闪充尽显超能
- 超能网|Realme发布全球首款SLED电视:RGB背光的回归?
- 成都科技|世纪难遇的国庆中秋重合,“成都科技”给你双倍“宠爱”!
- 超能网|亚马逊推出了自己的云游戏服务Luna,订阅费低至仅需每月6美元
- 中年|“世界互联网教父”凯文·凯利:金融科技的“超能力”远未用足
- |NVDIA安培Quadro显卡曝光:CUDA规模超RTX 3090
