GeForce|英伟达最强消费级显卡RTX 3090出炉:半价买泰坦( 二 )
另外需要注意的是 GPU 代工厂 , 今天发布的 GeForce RTX 30 系列均采用了三星的 8 纳米制程「英伟达定制工艺」 , 选择三星而不是台积电 , 不知是出于什么样的考虑 。
安培架构 , AI 算力再上台阶
这些强大的 GPU , 采用的都是今年 5 月刚刚推出的最新 7 纳米制程架构安培(Ampere) , 其首先被 Tesla A100 所采用 。
文章图片
在当时的 GTC 大会上 , 英伟达推出的安培架构计算卡 A100 , 成为了当时人类制造出的最大 7 纳米制程芯片 。 这块 AI 计算卡采用先进的台积电(TSMC)7 纳米工艺 , 拥有 540 亿个晶体管 , 它还是一块 3D 堆叠芯片 , 面积高达 826mm^2 , 最大功率达到了 400W 。
除了制程提高 , 安培架构还有一些针对 AI 计算特有的机制 , 其中的三代 Tensor Core 会对稀疏张量运算进行特别加速:执行速度提高一倍 , 也支持 TF32、FP16、BFLOAT16、INT8 和 INT4 等精度的加速——系统会自动将数据转为 TF32 格式加速运算 , 现在你无需修改任何代码量化了 , 直接自动训练即可 。
文章图片
针对稀疏矩阵的加速可以让安培架构 GPU 处理 AI 任务的效率提高一倍 。
最终在跑 AI 模型时 , 如果用 PyTorch 框架 , 相比上一代 V100 芯片 , A100 在 BERT 模型的训练上性能提升 6 倍 , BERT 推断时性能提升 7 倍 。
不过由于消费级和专业级芯片的结构不尽相同 , 我们不能把 Ampere A100 芯片的 AI 训练性能简单地直接拿来作为参考 , 还需要等待官方公布 , 以及最终实测的数据 。
黄仁勋表示 , GeForce RTX 30 系列显卡具备三项基础处理技术:30TFLOPS 算力的可编程着色器(Turing 架构是 11) , 双倍吞吐量 , 用于光追的 RT Core(58 RT TFLOPS , Turing 架构是 34) , 以及可自动忽略次要 DNN 权重的 Tensor Core(238Tensor TFLOPS , 旧版为 89) 。
三个方面 , 性能相比前一代都是翻倍 。
文章图片
AI 是目前科技领域最强大的技术力量 , 可以让计算机从大量数据中学习知识 , 甚至据此编写出软件 。 在图形领域 , 我们仍然可以通过 Tensor Core 的力量增强视频的画面 。 「我们现在可以只计算低分辨率图像的光追 , 再用 Tensor Core 通过 DLSS 将其还原成高分辨率 , 同时还能提高画面帧率 。 」黄仁勋说道 。
英伟达通过自己的超级计算机训练了多种不同场景的图像 , 并将训练好的模型以显卡驱动的程序安置在你的电脑中 。 在游戏运行时 , AI 会通过上一帧高清图对现有低分辨图进行渲染 , 最终达到超过原画的效果 。 据介绍 , 在最新版的 DLSS 2.0 上 , Tensor Core 可以把 RTX 的性能提升一倍——这也意味着游戏的有效帧数可以变成两倍 , 现在光线追踪、高分辨率和高帧率可以同时拥有了 。
用它来打游戏会是什么样?
除了新的图像增强工具 DLSS 2.0 , 随着安培架构的 GeForce 显卡 , 英伟达推出了 Nvidia Reflex、Nvidia Broadcast、Machinima 等工具 , 基于 RTX 的强大算力 , 现在人们不仅可以获得更好的游戏画面 , 也可以在游戏时获得更低的延迟、直播时屏蔽环境噪音 , 替换背景 , 实现绿幕效果、甚至直接用游戏里的元素创作出你想要的电影 。
文章图片
如今 , 大型 3D 游戏的容量已经超过了 200G , 大量图像材质需要从被解压缩 , 进而交由 GPU 处理 。 在使用了 PCIe-4 和固态硬盘之后 , CPU 解压缩成为了这个流程的瓶颈 。 现在 , 通过新技术 RTX IO , GPU 可以无损进行解压缩工作了 。
自 Turner Whitted 等人首次发表光线追踪的论文以来 , 已过去了 40 年 , 如今这项技术从计算及图形的圣杯变成了人人都可以体验的实时游戏画面 。 黄仁勋还宣布《堡垒之夜》已经支持英伟达的光线追踪技术 。 「现在 , 全球排名前二的最受欢迎游戏 , 《我的世界》和《堡垒之夜》 , 都已支持光追 。 」黄仁勋说道 。
为了让新一代 GeForce 显卡能够充分发挥作用 , 英伟达还发布了一款夸张的 360Hz 刷新率 G-Sync 屏幕 , 预计今年秋天就会出现在宏基、华硕、微星、外星人等品牌的电脑配置单上 。
文章图片
几个月前 , 黄仁勋在 GTC 上展示了 Turing 进行数百光源的光追实时渲染的 Marbles 撞球游戏视频 , 使用 Turing RTX Quadro 8000 , 达到 720p 25 帧 。 而使用安培架构的 GPU , 现在我们可以实现 1440p、30 帧 , 并增加更多的特效 , 这是超过四倍的性能 。
推荐阅读
- 冠军|《中国好声音》谢霆锋战队成最强战队,这一季的冠军稳了?
- 完美|综艺 | 谢霆锋打败李健 “完美餐单”荣膺最强战队
- 战队|恭喜“完美餐单”荣获《中国好声音》年度最强战队称号
- 大脑|12岁的“最强大脑”,孙奕东妈妈自曝育儿经,普通家长都可复制
- 李健 |3次反转!谢霆锋险胜李健成最强战队,“好声音”冠军初见端倪
- 挑战|从最不被看好到最强战队,谢霆锋如何做到的,除机关算尽还有一点
- 综艺|赵小棠陆柯燃最强战斗力battle,《非日常派对》变侦查现场
- 快讯神记|好声音最强战队诞生夜,比分多次出现两个极端
- 谢霆锋战队|在昨晚中国好声音最强战队比拼中,单依纯又以很大优势战胜对方
- 姐姐|《浪姐》第三轮公演淘汰爆冷,最强舞担成炮灰,伊能静曾点出原因
