卜娃娃|老黄在自家厨房发布RTX3000系列显卡,性能翻倍,影驰跟进( 二 )
相比之下 , 2080Ti 的 CUDA 核心是 4300 个 , 所以黄仁勋在发布中说 3070 性能超过 2080Ti , 看来是没什么问题的 。
单从核心数量上来看 , 这巨大的提升让最近买了 RTX 20 系列的人有了四九年入国军的感觉 。 不过需要注意的是 , 英伟达官方标记的数据是等效核心 , 与之前的物理核心不同 。
Nvidia GeForce 性能对比 , 来源:ANANDTECH
这些显卡均支持 PCIe 4.0 , 还有 HDMI 2.1 和 DP 1.4a 等接口 , 并内含第二代光追核心 RTX Core、第三代张量核心 Tensor Core 。
可以看到 , RTX 3090 和 RTX 3080 显存容量差距较大 , 这或许是在为稍后推出的 RTX 3080 Super 留位置 。 另外 , 3090 的 24G 内存和 1399 美元的价格或许能够让很多对深度学习有需求的用户省下买泰坦的预算 。 如果你真的想要「Titan Ampere」 , 预计它会是一个显存 40G , 售价 3000 美元的夸张显卡 。
另外需要注意的是 GPU 代工厂 , 今天发布的 GeForce RTX 30 系列均采用了三星的 8 纳米制程「英伟达定制工艺」 , 选择三星而不是台积电 , 不知是出于什么样的考虑 。
安培架构 , AI 算力再上台阶
这些强大的 GPU , 采用的都是今年 5 月刚刚推出的最新 7 纳米制程架构安培(Ampere) , 其首先被 Tesla A100 所采用 。
在当时的 GTC 大会上 , 英伟达推出的安培架构计算卡 A100 , 成为了当时人类制造出的最大 7 纳米制程芯片 。 这块 AI 计算卡采用先进的台积电(TSMC)7 纳米工艺 , 拥有 540 亿个晶体管 , 它还是一块 3D 堆叠芯片 , 面积高达 826mm^2 , 最大功率达到了 400W 。
除了制程提高 , 安培架构还有一些针对 AI 计算特有的机制 , 其中的三代 Tensor Core 会对稀疏张量运算进行特别加速:执行速度提高一倍 , 也支持 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速——系统会自动将数据转为 TF32 格式加速运算 , 现在你无需修改任何代码量化了 , 直接自动训练即可 。
针对稀疏矩阵的加速可以让安培架构 GPU 处理 AI 任务的效率提高一倍 。
最终在跑 AI 模型时 , 如果用 PyTorch 框架 , 相比上一代 V100 芯片 , A100 在 BERT 模型的训练上性能提升 6 倍 , BERT 推断时性能提升 7 倍 。
不过由于消费级和专业级芯片的结构不尽相同 , 我们不能把 Ampere A100 芯片的 AI 训练性能简单地直接拿来作为参考 , 还需要等待官方公布 , 以及最终实测的数据 。
黄仁勋表示 , GeForce RTX 30 系列显卡具备三项基础处理技术:30TFLOPS 算力的可编程着色器(Turing 架构是 11) , 双倍吞吐量 , 用于光追的 RT Core(58 RT TFLOPS , Turing 架构是 34) , 以及可自动忽略次要 DNN 权重的 Tensor Core(238Tensor TFLOPS , 旧版为 89) 。
三个方面 , 性能相比前一代都是翻倍 。
AI 是目前科技领域最强大的技术力量 , 可以让计算机从大量数据中学习知识 , 甚至据此编写出软件 。 在图形领域 , 我们仍然可以通过 Tensor Core 的力量增强视频的画面 。 「我们现在可以只计算低分辨率图像的光追 , 再用 Tensor Core 通过 DLSS 将其还原成高分辨率 , 同时还能提高画面帧率 。 」黄仁勋说道 。
推荐阅读
- 点亮精彩生活|“芭比娃娃”卸妆火了!当素颜曝光那一刻,网友:吓的我一哆嗦!
- 国际今日事|称“感觉好像中彩票”,美国男子在自家后花园发现一个大型游泳池
- 琉璃娃娃的梦|最经典的“许仙”反串女演员叶童结婚多年无子,近照流出老态尽显
- 鬼斗车|该不该夸夸自家的孩子,高考后时代的车市
- 艾伦-霍格|男子嫉妒富翁姐夫将豪宅修在自家木屋旁,雇凶将一家杀害埋在花园
- 女孩失踪|7岁女孩失踪1天后 在自家找到遗体
- 科技看点|手机怎样拍小电影,投屏到自家的电视机上?(一)拼接视频
- 云南|云南一7岁女孩失踪后在自家房背后找到尸体 家属:曾被其他孩子误导
- 帅不过三秒|求赵露思别再穿娃娃裙了,裙摆只是加了层褶,腿就显瘦到我崩溃
- 琉璃娃娃的梦|李佳琦也要出道拍戏?古装造型帅如邓伦,网红逆袭成功好励志
