我需要Intel CPU 来支持多GPU 设置吗?我不推荐Intel CPU,除非你在Kaggle 竞赛中大量使用了CPU(CPU 上的大量线性代数运算) 。即使是在Kaggle 竞赛中,AMD CPU 仍然很好 。在深度学习方面,AMD GPU 比Intel GPU 更便宜也更好 。对于4x GPU 构建,我的首选CPU 是Threadripper 。我们在大学里用Threadripper 构建了几十个系统,它们都工作得很好——还没有人抱怨 。对于8x GPU 系统,我通常会选择供应商熟悉的CPU 。在8x 系统中,CPU 和PCIe/ 系统可靠性比单纯的性能或成本效益更重要 。
我应该等待RTX 3090 Ti 吗?目前还不清楚是否会有RTX 3080 Ti / RTX 3090 Ti / RTX Ampere Titan 。GTX XX90 的名称通常是留给双GPU 卡,所以NVIDIA 是偏离了这一趋势 。从价格和性能来看,似乎RTX 3090 是一个取代RTX 3080 Ti 的名字 。但是所有这些都是推测 。如果你对这个问题感兴趣,我建议你对Rumor Mill 上的新闻跟踪一两个月,如果你什么都没有看到,就不太可能出现RTX 3080 Ti / RTX 3090 Ti / RTX Ampere Titan 。
机箱设计对散热有影响吗?没有 。只要GPU 之间有一个小间隙,GPU 的冷却通常就没问题 。机箱设计可以提供1 到3 摄氏度的好处,而GPU 之间的间隙将提供10 到30 摄氏度的改进 。归根结底,如果GPU 之间有间隙,冷却就没问题 。如果GPU 之间没有间隙,就需要合适的冷却器设计(鼓风扇)或其他解决方案(水冷、PCIe 扩展器),但无论哪种情况,机箱设计和机箱风扇都不很重要 。
AMD GPUs + ROCm 能赶上 NVIDIA GPUs + CUDA 吗?1-2 年内赶不上 。这涉及三个方面的问题:张量核、软件和社区 。
就纯硅而言,AMD GPU 很棒:优秀的 FP16 性能,优秀的内存带宽 。然而,由于缺乏张量核或等效特性,其深度学习性能与 NVIDIA GPU 相比较差 。封装的低精度数学函数不能解决这个问题 。没有这个硬件特性,AMD GPU 将永远不会有竞争力 。有传言称,AMD 计划在 2020 年推出某种具有张量核等效特性的数据中心卡,但此后就没有新的数据出现了 。拥有张量核等效特性的数据中心卡意味着很少有人能够负担得起这样的AMD GPU,这将给NVIDIA 带来竞争优势 。
假设AMD 在未来引入了类似于张量核的硬件特性 。然后很多人会说,“但是没有软件针对AMD GPU!”我该怎么使用它们呢?这更多的是一种误解 。AMD 软件ROCm 已经发展很长一段时间了,并且PyTorch 提供了优秀的支持 。虽然我没有看到很多针对AMD GPU+ PyTorch 的经验报告,但所有的软件功能已整合 。看起来,不管你选择什么网络,都可以很好地在AMD GPU 上运行 。所以,在这方面,AMD 已经走过了一段很长的路,这个问题或多或少得到了解决 。
然而,如果软件问题和缺少张量核的问题已得到了解决,AMD 还有一个问题:缺少社区 。如果你使用NVIDIA GPU 遇到问题,你可以在谷歌查询这个问题并找到解决方案 。这让人们对NVIDIA GPU 产生了很大的信任 。你有基础设施,使使用NVIDIA GPU 变得很容易(任何深度学习框架都可以使用,任何科学问题都得到很好的支持) 。你可以轻松地使用NVIDIA GPU(比如apex) 。你很容易就可以找到NVIDIA GPU 和编程专家,而我认识的AMD GPU 专家就少得多 。
在社区方面,AMD 和NVIDIA 的对比有点像Julia 和Python 。Julia 有很大的潜力,很多人会说,它是科学计算的高级编程语言 。然而,与Python 相比,Julia 很少被使用 。这是因为Python 社区非常强大 。Numpy、SciPy、Pandas 都是功能强大的软件包,有很多人在使用它们 。这与NVIDIA vs AMD 的问题非常相似 。
因此,在引入张量核等效特性(1/2 到1 年?)并围绕ROCm 建立一个强大的社区(2 年?)之前,AMD 很可能都无法赶上NVIDIA 。AMD 总是会在特定的子领域(如加密货币挖掘、数据中心)抢夺一部分市场份额 。不过,在深度学习领域,至少几年的时间内,NVIDIA 可能会保持其垄断地位 。
什么时候使用云GPU?什么时候使用专用的GPU 台式机/ 服务器?经验法则:如果你希望做深度学习超过一年,那就买一台GPU 台式机 。否则,最好使用云实例 。
最好自己算一下 。例如,如果对比下配备了1x V100 的AWS V100 spot 实例和一个只有一块RTX 3090 的台式机(性能类似),那么对于台式机,我们要花2200 美元( 2-GPU Barebone + RTX 3090) 。此外,假设你在美国,你需要额外支付每千瓦 / 时 0.12 美元的电费,而 AWS 实例是每小时 2.14 美元 。
以每年 15% 的利用率来说,台式机每年消耗的电量为:
(350 Watt (GPU) + 100 Watt (CPU))*0.15 (utilization) * 24 hours * 365 days = 591 kW/h
推荐阅读
- 狗如何训练定点大小便 如何训练柯基狗狗在固定地点大小便
- 初学者如何学太极拳 二个训练方法要谨记
- 跆拳道力量训练的方法有哪些?
- 跑步训练器锻炼有哪些好处呢
- 跑步怎么训练呢
- 长跑体能训练方法有哪些呢
- 足球运动员训练方法介绍
- 运动|曝胖猴仔被训练营“扫地出门”,600W打水漂,网友:自己作的
- 踝关节力量训练方法有哪些?
- 拳击的力量训练有哪些?
