「」大型芯片将打破深度学习的速度壁垒( 二 )


很大程度上正是在这些内核之间移动数据的需要让WSE变得独一无二 。在两个内核之间移动数据最快、能耗最低的方法就是将它们放在同一个硅基板上 。数据必须从一块芯片传输到另一块芯片时 , 速度和功率方面的代价都很高 , 因为距离很长 , 传输信号的“电线”必须更粗且密度更小 。
通过硅片实现所有通信的欲望 , 加上对小内核和本地存储的渴望 , 都指向制造一块尽可能大的芯片(也许大如一整块硅晶圆) 。费尔德曼说:“显然我们做不到这一点 , 这是肯定的 。但这很明显有很大的好处 。”
━━━━
几十年来 , 工程师们一直认为研究晶圆级芯片是一个死胡同 。毕竟 , 出色如已故IBM System/360大型机首席架构师吉恩?阿姆达尔(Gene Amdahl) , 也在与Trilogy Systems公司合作进行的尝试中失败了 。不过劳特巴赫和费尔德曼说 , 任何与阿姆达尔的尝试进行的比较都很可笑而且过时的 。阿姆达尔使用的晶圆只有如今晶圆的1/10大 , 而在这些晶圆上组成的设备尺寸却是现今设备的30倍 。
更重要的是 , Triology无法解决芯片制造过程中不可避免出现的错误 。在其他条件相同的情况下 , 芯片越大出现缺陷的可能性就越大 。如果芯片和一张信纸一样大 , 那么它必然会有不少缺陷 。
不过 , 劳特巴赫找到了架构解决方案 。由于他们的目标工作量偏向于采用成千上万个相同的小内核 , 所以可以容纳足够多的冗余内核来承担其中高达1%的缺陷所导致的故障 , 与此同时仍然能有一块非常强大、非常大的芯片 。
当然 , 为了制造能容纳缺陷的巨型芯片 , Cerebras还是需要解决大量制造问题 。例如 , 光刻工具能够将它们的特征定义图案刻蚀到相对较小的矩形上 , 并不断重复 。由于在晶圆不同位置刻蚀不同图案的成本和难度较高 , 仅此一项就导致无法将许多系统构建在单个晶圆上 。
不过WSE不需要这样做 。它就像一块充满了完全相同的芯片的普通标准晶圆一样 。最大的挑战是找到一种将这些伪芯片连接在一起的方法 。芯片制造商在每个芯片周围留下了一条称为“划线”的空白硅窄边 。通常会沿着这些线将晶圆切成小块 。Cerebras与台湾积体电路制造股份有限公司(TSMC)合作开发了一种跨越划线实现互连的方式 , 以便每块伪芯片中的内核都可以通信 。
由于所有通信和内存都在一块硅片上 , 数据可以畅通无阻地快速移动 , 实现每秒1000拍比特的内核到内核带宽和每秒9拍字节的SRAM到内核带宽 。“这多的可不是一点点 。”费尔德曼说 , ”就是因为我们继续使用了硅 , 我们将带宽提升了4个数量级 。”
除了实现跨划线互连 , 芯片制造硬件也必须修改 。即便是用于电子设计自动化的软件 , 也必须定制才能在如此大的芯片上工作 。“每一条规则、每一种工具和每一种制造设备的设计都像是挑选一块普通大小的巧克力饼干 。而(我们)提供的是一整块烤盘大的饼干 , ”费尔德曼说 , “其中的每一步都需要创新 。”
「」大型芯片将打破深度学习的速度壁垒
文章图片

文章图片

晶圆级集成“在过去40年里一直被忽视 , 当然 , 总有一天它会得到重视” , 他说 。现在 , 既然Cerebras已经这样做了 , 大门可能会向其他人敞开 。“我们认为 , 其他公司会寻求与我们合作 , 以解决人工智能之外的问题 。”
确实 , 伊利诺伊大学和加州大学洛杉矶分校的工程师们认为 , Cerebras芯片可以促进他们使用硅互连结构技术推进他们的晶圆级计算工作 。“这是对我们所做研究的极大验证 , ”伊利诺伊大学的拉凯什?库马尔(Rakesh Kumar)说 , “我们很高兴这种事情有商业利益 。”
━━━━
当然 , CS-1不仅仅是WSE芯片 , 但它也没有更多内容 。这既是出于设计 , 也是出于必要 。被看作主板的 , 是一个位于芯片上方的电力输送系统 , 其下方还有一块水冷冷板 。令人惊讶的是 , 在这款计算机的开发过程中 , 最大的挑战便是这个电力传输系统 。


推荐阅读