【机器之心】4亿美元收购案失败的背后:错失AI芯片时代的最好3年( 二 )


二 艰难的磨合之路
在被英特尔收购之前 , Nervana 声称其产品性能将比 GPU 高至少 10 倍 , 这有利于英特尔与英伟达在 AI 市场的竞争 。 不过 , 英伟达随即通过架构以及软件的改进的方式让其 GPU 性能快速提升 , 致使 Nervana 的 10 倍性能优势消失 。
为此 , Nervana 不得不重新设计 , 在与英伟达的你追我赶中 , 芯片从创意到达到量产级共花费了三年时间 , 这在分秒必争的芯片市场上沦为劣势 。
Nervana Systems 被并入英特尔后 , 共设计出三款芯片 , 遗憾的是都未真正达成商业化 。
Nervana 第一代产品 Lake Crest , 2017 年初被爆出, 是专为训练 DNN 而深度定制的 ASIC 解决方案 。 英特尔宣布 2017 年上半年将会有芯片成品 。
但直到 2018 年中 , 英特尔才宣布 Lake Crest 只是一个试用版的原型产品 , 而正式的芯片产品命名为 Spring Crest , 将会于 2019 年正式发售 。
先安抚后爆料 , 英特尔吊足了大家的胃口 , 称 Lake Crest 的性能指标将达到 12 核 , 32GB HBM 内存 , 峰值算力为 38TOP/s 。 据介绍 , Lake Crest 使用了 Flexpoint 架构 , MCM 多芯片封装 , 搭载 32GB HBM2 存储 , 内部互联速度是 PCIe 的 20 倍 。
Spring Crest 的两款芯片最终在英特尔人工智能开发者大会(AI DevCon 2018)上首次展示 , 与初代 NNP 芯片 Lake Crest 相比 , 产品的训练性能提升了 3-4 倍 。
一款是针对服务器端训练应用的 Nervana NNP-T , 代号 Spring Crest 。 它使用的是台积电 16nm 工艺生产 , 核心面积高达 680mm2 , 集成 270 亿晶体管 , 搭配 32GB HBM2 显存 , 频率 1.1GHz , TDP 150-250W 。 具有 119TOPS 的峰值算力 , 并且通过 CoWoS 高级封装技术实现多芯片互联 。 对标英伟达 Tesla 系列 GPU 加速芯片 。
而另一款则是针对边缘计算的 Nervana NNP-I , 代号 Spring Hill , 功耗 10W , 能效比为 4.6TOPS/W 。 CPU 部分是英特尔的 10nm 工艺 Ice Lake 核心 , 功耗在 10-50W 之间 , 有 M.2 及 PCIe 两种规格 , 更为小巧灵活 。
【机器之心】4亿美元收购案失败的背后:错失AI芯片时代的最好3年
本文插图
Nervana 第二代芯片:Nervana NNP-T 和 Nervana NNP-I
据市场反馈 , 第二代 Nervana 设计根本满足不了那些高性能工作负载的要求 。 整个 2019 年 , 市面也并未得到 Spring Crest 系列真正商用的消息 , 直到今年 2 月 3 日 , 它被 Habana 顶替 。
四年的磨合始终未能达成预期的产品线 , 屡次跳票的 Nervana 使得英特尔选择继续攻克下一个城池 。 2019 年 12 月 , 英特尔收购了以色列初创公司 Habana Labs 。
Habana Labs 成立于 2016 年 , 比 Nervana 晚两年 , 被收购时已经拥有两款产品 Gaudi AI Training Processor 和 Goya AI Inference Processor 。
相比 Nervana 迟迟不交付产品 , Gaudi 人工智能训练处理器已经在为特定超大规模客户提供样品 , Goya 人工智能推理处理器已实现商用 。
【机器之心】4亿美元收购案失败的背后:错失AI芯片时代的最好3年
本文插图
Habana Gaudi 芯片
Habana 能获得青睐的另一个杀手锏在于其出色的可扩展性——这是云端芯片最关键的门槛 。 在设计底层编译器和软件架构的时充分考虑软硬件协同 , 帮助 Habana 芯片取得了更好的可扩展性 。
根据官方公布的数字 , 其分布式总体性能甚至在处理器数量大于 600 的时候也能接近线性 , 较之英伟达 V100 GPU , 训练性能提高了接近 4 倍 。
从技术上来说 , Nervana 的神经网络处理器(NNP-T)使用专有的互连进行扩展 , 而 Habana 的 Gaudi 可以通过标准 100Gb 以太网扩展到数千个节点 。 Gaudi 甚至还支持远程直接内存访问 RDMA , 而无需增加远程 CPU 的负担 。


推荐阅读