[格上私募圈]干掉英伟达?( 七 )


无论商用效果如何 , 以上都是云服务商不得已而为之的一个选择 。
[格上私募圈]干掉英伟达?
文章图片
阿里2015年在张北成立的数据中心
但需要注意的是 , 这些云服务企业自研的大多是推理芯片 。
由于神经网络模型在训练阶段需要处理大量数据 , 同时也要完成不同的学习任务 , 因此GPU具备的大量平行运算单元 , 能够充分满足“训练”对运算的效率与通用性要求 。
但进入执行阶段 , 也就是“推理阶段” , 一个算法模型可以根据一堆量级不大的新数据得出结论 。 GPU当然也可以做到这些 , 但多少有点“大材小用” 。
没错 , 这就是亚马逊、阿里为何研发定制推理芯片的另一个重要原因——对于大量推理工作 , 通用性或许不足 , 但专用肯定是有余了 。
但有不愿透露姓名的业内人士对这些“自研芯片”存有疑虑 。 因为他认为 , 无论是自己做 , 还是部署其他公司的商用芯片 , 难度其实不相上下 。
“云服务商如果真的打算在AI加速器上花钱 , 那么他们想要的一定是这项工具的灵活性 , 而非只满足于实现单一目的 。 ”
目前来看 , 只有英伟达GPU等少数几家公司具备这样的优势——让一块芯片驾驭不同的工作类型 , 譬如GaaS(游戏图像渲染)、高性能计算加速以及模型训练与推理 。
因此 , 在“更专业的精英”与“全能却稍微平庸的人”之间 , 趋利的市场暂时会倾向于后者 。
此外 , 即便某块专有芯片比GPGPU更擅长处理某个任务 , 但后续却可能需要一大批人为这块芯片开发新的人工智能代码 。
说到底 , 这仍然少不了生态之间的较量 。
在微软选择与Graphcore合作后 , 技术分析机构MoorInsights分析师KarlFreund曾公开表示 , 这种芯片虽然看起来像是“名校高材生” , 但灵活性仍然让人怀疑 。
“没有证据表明其具备更好的可编程性 , 这让工程师们不足以去开发新的应用程序 。 即便是可编程性能做到 , 但在训练和推理方面都能取得好成绩吗?对于芯片创业公司来说 , 这很困难 。 ”
的确 , Graphcore曾强调自己的芯片“特别适合”完成那些超大人工智能模型或时间数据的训练任务 。 但是 , 他们自己创建的软件框架Poplar , 目前看起来也不太可能对抗在AI开发者群体具有极高威望的谷歌深度框架Tensorflow 。 而后者被英伟达的GPU产品所支持 。
甚至于投资分析师DoctoRx对谷歌的TPU也心存质疑 。
他认为 , 在部署时 , 谷歌构建的规范并没有他们想象的那么有效 , 这很大程度上是因为成本所致 。
“虽然我不确定谷歌在宣布对外出租TPU能力后的接下来会实施什么样的计划 , 但与专业芯片供应商的方案相比 , 我觉得这样一个出于‘家用’目的的解决方案的确值得怀疑 。 ”
有意思的是 , 他把TPU那些在业绩、效率和成就方面取得的“第一” , 称为“更具有公关性质的里程碑” 。
“在我看来 , 谷歌总是在努力追赶或超越NVDA的P100s、V100s以及T4s 。 根据其公布的价格 , TPU的使用定价几乎对标了V100 , 但比T4s要贵 。 ”
[格上私募圈]干掉英伟达?
文章图片
谷歌的人工智能专用加速器TPU3.0
面对新老对手发起的密集攻势 , 英伟达又一次选择了“合纵连横” 。
虽然在高性能计算服务器与数据中心市场 , 英特尔x86处理器占据着最大的市场份额 , 但随着基于Arm内核CPU的崛起 , 传统x86CPU产品正面临着一定威胁 。
作为全球最有名的芯片知识产权(IP)供应商之一 , ARM本身不做芯片 , 而是向芯片厂商出售芯片底层技术 。 截至目前 , 华为、苹果、三星、高通、飞利浦等芯片厂商都要被ARM授权使用底层架构才能设计芯片 。
就在2019年中旬 , 英伟达宣布自己的CUDA平台将在年底全面支持ArmCPU , 向Arm庞大的生态系统提供全堆栈的AI、HPC软件 , 一起开发超级计算芯片 , 进而扩大在数据中心市场的份额 。


推荐阅读