GPU选购指南:训练ML模型,我必须买RTX3080吗?(15)


不过,总的来说,这些新数据类型可以被视为懒惰数据类型,因为通过一些额外的编程工作(适当的损失缩放、初始化、归一化、使用 Apex),使用旧数据类型就可以获得所有这些好处 。因此,这些数据类型并不提供速度提升,而是提高了低精度训练的易用性 。
新的风扇设计 / 散热问题RTX 30 系列新的风扇设计包括一个鼓风扇和一个推挽式风扇 。设计很巧妙,如果你的 GPU 之间有间隙,也会非常有效 。然而,如果你把 GPU 堆在一起,就不清楚它们表现如何了 。鼓风扇将能够通过远离其他图形处理器的支架排气,但也没法说那多有效,因为鼓风扇的设计和以前不同 。在一个 4 PCIe 插槽设置中,如果你想购买 1 到 2 个 GPU,那应该没问题 。然而,如果你打算同时使用 3 到 4 个 RTX 30 GPU,那么我需要等散热性能报告出来,了解下是否需要不同的 GPU 冷却器、PCIe 扩展器或其他解决方案 。到时候我会更新这篇博文 。
为了克服散热问题,水冷在任何情况下都可以提供一个解决方案 。许多厂商为 RTX 3080/RTX 3090 卡提供水冷模块,即使在 4x GPU 设置中也能保持低温 。如果你想运行一个 4x GPU 设置,可以留心下一体化水冷却解决方案,因为在大多数桌面情况下散热器都很难分散开 。
冷却问题的另一个解决方案是购买 PCIe 扩展器,并将 GPU 在机箱内分散开 。这非常有效,华盛顿大学的其他博士生和我使用这个设置都非常成功 。那看起来不漂亮,但它可以使你的 GPU 保持凉爽!即使你没有足够的空间来将 GPU 分散开,它还是可以帮到你 。例如,如果你可以在一个台式电脑的机箱中找到空间,那么你或许就可以购买标准的 3 槽宽 RTX 3090,并在机箱中使用 PCIe 扩展器来把它们分散开 。这样,你就可以通过一个简单的解决方案解决了 4x RTX 3090 设置中的空间问题和冷却问题 。

GPU选购指南:训练ML模型,我必须买RTX3080吗?

文章插图
 
3 插槽设计和电量问题RTX 3090 是一个 3 插槽 GPU,所以你不能在 4x 设置中使用 NVIDIA 的默认风扇设计 。这是合理的,因为它运行在 350W TDP 下,在多 GPU 2 插槽设置中很难降温 。RTX 3080 运行在 320W TDP 下只稍好一点,而冷却一个 4x RTX 3080 设置也会非常困难 。
在 4x RTX 3090 设置下为一个 4x350w = 1400W 系统供电也很困难 。1600W 的供电单元(PSU)很容易获得,但只有 200W 是给 CPU 供电,主板用电可能太紧 。只有在元件获得充分利用的情况下,才会达到最大电量,而在深度学习中,CPU 通常只处于弱负载状态 。这样,一个 1600W 的 PSU 就可以很好地为一个 4x RTX 3080 构建供电,但是对于一个 4x RTX 3090 构建,最好是找一个高瓦数的 PSU(+1700W) 。目前,在台式电脑市场上似乎没有一个 PSU 超过 1600W 。服务器或加密货币挖矿 PSU 可能可以解决这个问题,但可能外形奇怪 。
GPU 深度学习性能下面的基准测试不仅包括 Tesla A100 和 Tesla V100 的基准测试,我还构建了一个适合这些数据的模型,以及基于 Titan V、Titan RTX、RTX 2080 Ti 和 RTX 2080 的四个不同的基准测试 。[ 1 , 2 , 3 , 4 ]
除此之外,我还通过在基准数据的这些数据点之间进行插值扩展了 RTX 2070、RTX 2060 卡或是 Quadro RTX 6000&8000 卡 。通常,在同一个架构中,GPU 的扩展与串流多处理器和带宽成线性关系,而我的架构模型就是以此为基础 。
我只收集了混合精度 FP16 训练的基准数据,因为我相信,没有充分的理由使用 FP32 训练 。
GPU选购指南:训练ML模型,我必须买RTX3080吗?

文章插图
 
与 RTX 2080 Ti 相比,RTX 3090 将卷积网络的速度提高了 1.57 倍,将 Transformer 的速度提高了 1.5 倍,与此同时,定价也涨了 15% 。因此,与 Turing RTX 20 系列相比,Ampere RTX 30 提供了一个非常实质性的改进 。
GPU 深度学习的每美元性能什么 GPU 能给你带来最好的回报?这取决于整个系统的成本 。如果你有一个成本高昂的系统,那么投资更昂贵的 GPU 是有意义的 。
这里有三个 PCIe 3.0 构建,我用它作为 2/4 GPU 系统的基础成本,然后再加上 GPU 成本 。GPU 成本是 GPU 在亚马逊和 eBay 上成本的均值 。对于新的 Ampere GPU,我使用了定价 。结合上文给出的性能值,就可以得出这些 GPU 系统的每美元性能值 。对于 8 GPU 系统,我使用 Supermicro barebone 作为基准成本——这是 RTX 服务器的行业标准 。请注意,这些柱状图没有考虑内存需求 。你应该首先考虑自己的内存需求,然后在图表中寻找最佳选项 。关于内存,这里有一份大致的指南:


推荐阅读