【特斯拉汽车】特斯拉的HW 3.0自动驾驶大脑:性能怪兽( 三 )


英伟达觉得有必要挽回面子
讲了很多技术问题 , 让我们休息一下 , 给大家看一些有趣的东西 。 特斯拉的自动驾驶日结束后 , 英伟达(NVIDIA)发表了一篇新文章 , 称赞特斯拉“提高了自动驾驶的门槛” 。 紧接着 , 英伟达为了挽回颜面 , 用毫无用处的比较标准来鼓励自己 。
特斯拉的HW 2.0由NVIDIA Xavier芯片驱动 , 该芯片的算力可达到21至30 TOPS(Tera Operations Per Second) 。 特斯拉最新推出的HW3芯片最高可达144 TOPS 。
特斯拉在其演示中表示 , NVIDIA的Xavier芯片可以达21 TOPS 。 英伟达试图纠正特斯拉 , 因此在其文章中说 , 它实际上是30 TOPS , 而不是21 TOPS 。 问题是 , NVIDIA的Xavier芯片是为“多种用途”而设计的 , 它尽可能地符合多个潜在客户的要求 。 因此 , 该芯片没有神经网络处理器 , 但可以使用软件和一些侧重深度学习的硬件成功地模拟出神经网络处理器 。 特斯拉说最多21 TOPS , 这是通过芯片上的GPU模拟神经网络得出的结果 。 特斯拉的参考标准非常简单 。 “在这个硬件上 , 我们的软件可以达到多少TOPS?”这是一个完全不同的问题 , 相比“在运行充分利用芯片的软件情况下 , 这个硬件能够支持的最大算力是多少TOPS”来说 。 理论上 , 如果芯片被要求在另一个场景中执行其他任务 , 它可能会达到30 TOPS以上 , 但在这种情况下 , 这是一个非常无用的指标 。 尽管如此 , 英伟达为其他客户或潜在客户澄清是非常明智的 。
需要注意的是 , 在对一个复杂的软件进行基准测试时 , 所考虑的都是特定软件能够实现的性能 。 这就是为什么最好的硬件并不总是理论上性能最高的硬件 。
在过去 , 我们通常只有一个通用处理器和一个数字协处理器 。 然后是图形协同处理器 , 然后是现在的神经网络协处理器 。 尽管 , 具有讽刺意味的是 , 在这种情况下 , CPU更像是神经网络处理器的协处理器 。 基本上 , 特斯拉所做的就是创造了一个专门的处理器 , 它能更好地完成特定的任务 , 但在一般的计算任务却很糟糕 。 所以 , 是的 , 这个芯片唯一擅长的“游戏”就是在我们生活的“矩阵”中穿梭——它真的很擅长这个 。
【特斯拉汽车】特斯拉的HW 3.0自动驾驶大脑:性能怪兽
本文插图

为了进一步捍卫它的“骄傲” , NVIDIA说 , 当你在该公司的DRIVE AGX Pegasus产品中将XAVIER和一个强大的GPU结合时 , 你可以达到160 TOPS的算力 。 如果特斯拉根据自己的应用——由于需要虚拟化神经网络处理器——它只能利用其中的70% , 那就意味着最多112 TOPS , 而且产生大量能耗 。 英伟达还说 , DRIVE AGX Pegasus可以通过两个堆叠达到320 TOPS , 但这个针对特斯拉所需的应用场景这一特定应用来说 , 这是不现实的 。
当我们谈论网速时 , 我们不仅关心速度 , 还关心延迟/响应时间 。 在这种情况下 , 特斯拉已经在抱怨数据从芯片旁边的DRAM到达芯片的延迟 。 使用脆弱的NVlink(NVlink是英伟达开发并推出的一种总线及其通信协议)总线从多个松散连接的芯片传输数据的延迟是完全不可接受的 。
此外 , 这还没有考虑到电动汽车是由电池供电的 , 而不是由核反应堆供电的 , 而你需要使用的电量会在你到达高速公路之前耗尽你的电池 。 效率是关键 。
英伟达的解决方案更侧重于结合多个芯片的性能 。 它的市场需求是拥有多核、更好的SPUs、更好的GPUs , 并将它们通过NVlink连接起来 , 而不是专为特定应用场景创建的解决方案 。 这对于试图改进软件或大学项目的公司来说是很好的 , 但是这种解决方案对于实际应用来说不够有效 。
HW 4.0
上面就是特斯拉的HW 3.0 。 那么 , 我们对HW 4.0有什么期待呢?目前 , 我们所知道的是 , 它的目的是进一步提高安全性 。 唯一真正告诉我们的是 , 它不会专注于让一辆旧车学习新技术 , 但这并不意味着它不会包括一些新技术 。 以下是我列出的HW 4.0可能带来的潜在变化和改进 , 从最可能的到最具推测性的排列如下:


推荐阅读