「」大型芯片将打破深度学习的速度壁垒( 三 )


WSE有1.2万亿个晶体管 , 其设计工作电压约为0.8伏 , 这是处理器的标准配置 , 但它们的数量过多 , 共需要2万安培的电流 。劳特巴赫说:“在没有明显电压下降的情况下 , 将2万安培的电流注入晶圆是一个相当艰巨的工程学挑战 , 这比冷却晶圆或解决成品率问题要难得多 。”
电力无法从WSE的边缘传输 , 因为互连中的电阻在电压到达芯片中间之前早已将其降为零 。所以应该自上而下垂直传输 。Cerebras设计了一块玻璃纤维电路板 , 里面装有数百个用于功率控制的专用芯片 。100万根铜柱将玻璃纤维板与WSE上各个点之间约1毫米的距离连接起来 。
以这种方式传送电力似乎很简单 , 但事实并非如此 。操作过程中 , 芯片、电路板和冷板都会预热到相同的温度 , 但在预热时它们膨胀的量各不相同 。铜膨胀最大 , 硅膨胀最小 , 玻璃纤维的膨胀介于两者之间 。对正常尺寸的芯片来说 , 这种不匹配是一个令人头疼的问题 , 因为这种变化足以切断它们与印刷电路板的连接 , 或者产生足以破坏芯片的应力 。对于WSE大小的芯片而言 , 即使是很小的尺寸变化也会转化为几毫米的变化 。
劳特巴赫说:“与主板(热膨胀系数)不匹配是一个残酷的问题 。”Cerebras曾尝试寻找一种热膨胀系数介于硅和玻璃纤维之间的材料 , 只有这样才能保持百万个电力输送柱的连接 。不过 , 最终工程师们不得不自己发明材料 , 这项工作耗时1年半 。
━━━━
WSE明显比通常用于神经网络计算的竞争芯片要大 , 后者包括英伟达的Tesla V100图形处理器和谷歌的Tensor处理器 , 但更大意味着更好吗?
2018年 , 谷歌、百度和一些顶级学术团体开始研究基准 , 以便在系统之间进行同类比较 。结果是他们于2018年5月发布了训练基准MLPerf 。
根据这些基准 , 神经网络训练技术在过去几年里取得了巨大进步 。英伟达DGXSuperPOD(本质上是一台1500-GPU的超级计算机)用了80秒便解决了ResNet-50图像分类问题 , 而使用英伟达DGX-1机器(大概在2017年)需要8小时 , 使用该公司2015年的K80则需要25天 。
Cerebras还没有发布MLPerf结果或任何其他可独立验证的同类比较结果 。相反 , 该公司更愿意让客户使用自己的神经网络和数据来测试CS-1 。
分析人士称这种做法并不罕见 。“每个人都有为自己的业务开发的模型 , ”Moor Insights的人工智能分析师卡尔?弗洛因德(Karl Freund)说 , “对买家来说 , 这是唯一重要的 。”
例如 , 早期客户阿贡国家实验室就有一些相当强烈的需求 。在训练神经网络以实时识别不同类型的引力波事件时 , 科学家们最近使用了阿贡功率为百万瓦特的Theta超级计算机1/4的资源 , 该超级计算机的计算能力在全球排名第28位 。
把功耗降低到千瓦级似乎是超级计算的一个重要益处 , 劳特巴赫怀疑这项功能是否会成为数据中心的一大卖点 。“虽然很多数据中心都在说(节约)能源的问题 , 但归根结底……他们并不在乎 , ”他说 , “他们想要的是性能 。”而这是一个约餐盘大小的处理器完全可以提供的 。


推荐阅读