ARM|ARM新十年 能否实现CPU计算“统治”?( 二 )


计算性能提升非常重要的驱动力就是AI,Statista Research Department今年1月发布的最近报告估计,到21世纪20年代中期,全球将有超过80亿台搭载AI语音辅助的设备 。不同设备对于AI性能的需求不同,也就需要不同的AI处理器 。
ARM|ARM新十年 能否实现CPU计算“统治”?
文章图片
Arm与富士通合作开发了可伸缩矢量扩展(Scalable Vector Extension, SVE)技术并用在了全球最快的超级计算机“富岳”上 。在SVE的基础上,Armv9中使用了新开发的SVE2技术,增强了对在CPU上本地运行的5G系统、虚拟和增强现实以及ML工作负载的处理能力,能够提供实现增强的机器学习和数字信号处理能力 。
ARM|ARM新十年 能否实现CPU计算“统治”?
文章图片
“我们还将通过提升频率、带宽、缓存大小、并减少内存延迟,以最大化CPU 性能 。”Richard表示 。
在解决新问题的过程中,Arm加入了一些复杂技术,这是否违背了精简指令集(RISC)的初衷?Richard的观点是:“Arm架构的精简指令(RISC)核心没有改变,我们依然遵循着注册到注册(registration to registration) 的操作原则,所以从硬件的角度来看,Arm指令集仍然保持着精益性 。”
Arm称,除了大幅增强CPU内的矩阵乘法,Mali GPU和Ethos NPU也会持续进行AI创新,扩展Arm的技术能力 。
统治CPU计算
目前,CPU领域最成功的架构当属x86,不过x86的成功和统治力在于PC和高性能计算市场,在Arm擅长的智能终端市场并不成功 。近几年,Arm架构在高性能计算领域取得了一些进展,包括上面提到的“富岳”超级计算机,以及推出采用Arm架构的多款服务器 。去年,苹果M1处理器Macbook Pro电脑的推出,也让业界看到了x86架构在PC市场的统治地位并非牢不可破 。
Arm首席执行官Simon Segars说,“Arm芯片实现1000亿颗的出货花了26年,如果预测准确,接下来一年,我们的合作伙伴出货的Arm芯片将累计达到2000亿颗 。也就是说,我们的第二个1000亿的出货将在短短5年内达成 。”
雷锋网了解到,目前Arm架构的芯片出货已经超过1800亿颗,Armv9架构会成为实现Arm芯片3000亿颗芯片出货的先驱 。没有人能准确预估Arm实现第三个1000亿颗芯片出货的时间,但可以明确的是Arm希望其芯片能够为所有智能计算提供算力,也就是让其芯片在未来无处不在 。
为了实现这个目标,同时满足行业从通用计算向普遍的专用处理发展的需求,Arm也开始强调全面计算的理念 。全面计算设计方法包含Arm的CPU、GPU、NPU,通过将全面计算的设计原则应用在包含汽车、客户端、基础设施和物联网解决方案的整个IP组合中 。
ARM|ARM新十年 能否实现CPU计算“统治”?
文章图片
与此配合,Arm也需要在标准化程度上取得平衡 。Richard说:“如果过多的标准化,那么合作伙伴将无法开发合适的专用解决方案 。而如果太少的标准化,我们得承担低价值、形同实异的解决方案的风险 。这将让软件生态系统的成本增加、且毫无益处 。”
Arm在服务器领域中已经看到了标准化平衡的价值,推出了“服务器基础架构SBSA”和相关的认证计划“服务器就绪” 。
ARM|ARM新十年 能否实现CPU计算“统治”?
文章图片
“我们也正在扩大标准化的范围,Arm SystemReady将服务器就绪计划的概念从云端延伸到物联网边缘等广泛的设备上,以实现通用操作系统及虚拟机管理程序之间的交互运作 。”Richard说 。
ARM|ARM新十年 能否实现CPU计算“统治”?
文章图片
ARM|ARM新十年 能否实现CPU计算“统治”?
文章图片
如果Arm的全面计算以及标准化探索成功,从终端到边缘再到云端,Arm是否就能够实现在未来的计算统治?实现3000亿颗甚至更多芯片出货又会有多快呢?
小结
现在看来,有两大方面的阻碍,一方面是在复杂的国际形势下,同属精简指令集的RISC-V正在快速发展,加上x86阵营intel和AMD也在加强x86的竞争力,Arm要真正撼动x86的优势领域并非易事 。
另一方面,中国作为芯片进口的大国,Arm与Nvidia的收购交易,以及美国对中国领先芯片设计公司的出口限制,让客户产生担忧 。


推荐阅读