大模型时代的下OCR,“CPU味道”更重了( 二 )


而在数据访问速度上,各级缓存大小、内存通道数、内存访问速度等都有一定程度的优化,另外部分型号还集成了HBM高带宽内存技术 。

大模型时代的下OCR,“CPU味道”更重了

文章插图
此外,在CPU指令集上也做了优化,内置了英特尔®? 高级矩阵扩展(英特尔®? AMX)等硬件加速器,负责矩阵计算,加速深度学习工作负载 。
这有点类似于GPU里的张量核心(Tensor Core) 。
AMX由两部分组成,一部分是1kb大小的2D寄存器文件,另一部分是TMUL模块,用来执行矩阵乘法指令 。
大模型时代的下OCR,“CPU味道”更重了

文章插图
它可同时支持INT8和BF16数据类型,且BF16相较于FP32计算性能更优 。
有了AMX指令集加持,性能比矢量神经网络指令集VNNI增加达8倍 。
大模型时代的下OCR,“CPU味道”更重了

文章插图
除了核心硬件平台外,实际情况中帮助OCR在CPU上落地的,还有推理框架OpenVINO™? 。
市面上大部分AI框架都是同时支持训练和推理,OpenVINO™? 则是删减了很多训练部分所需的冗余计算,主要支持推理部分 。
而且也是专门针对英特尔硬件打造的优化框架 。框架替换也不复杂,只需5行代码就可以完成原有框架的替换 。
用户可以针对不同业务场景,来优化OpenVINO™? 运行参数 。
比如用友OCR业务涉及文字检测和文字识别两个AI模型,优化方向有所不同 。
前者对单次推理要求高,后者需要整个系统吞吐量的优化,那么OpenVINO™? 分别采用单路同步模式和多路异步模式 。单一模块优化后,再针对整体流程的优化 。
这样一套软硬件组合拳打下来,英特尔充分释放了CPU计算潜力,在实际场景中也实现了与GPU同等性能 。
不再是你以为的CPU以往谈到AI加速、AI算力,大众经常想到的就是GPU,又或者是专用TPU 。
至于通用架构芯片CPU,受到计算单元和内存带宽的限制,始终无法适应于计算数据庞大的深度学习 。
但现在的CPU,已经不再是“你以为的你以为”了:
它可以深入到各个行业当中,轻松Hold住各种场景应用 。
尤其在AMX加速引擎加持下,能将深度学习训练和推理性能提升高达10倍 。
比如,媒体娱乐场景中,能帮助个性化内容推荐速度提升达6.3倍;零售行业里,能将视频分析速度提升高达至2.3倍,还有像工业缺陷检测、医疗服务也都能从容应对 。
即便是在前沿探索领域,CPU也已经成为不容忽视的存在:
像是在生命科学和医药方向,在某些场景下的表现效果甚至比GPU还要好 。
大模型时代的下OCR,“CPU味道”更重了

文章插图
英特尔用CPU速刷AlphaFold2,结果力压AI专用加速芯片,去年发布的第三代至强®? 可扩展处理器经过优化后就能使其端到端的通量足足提升到了原来的23.11倍 。今年基于第四代至强®? 可扩展处理器再次把性能提升到了上一代产品的3.02倍 。
不过要实现CPU加速,背后也并非简单的硬件优化 。
而是软硬件融合协同,从底层到应用的一整套技术创新,以及产业链上合作伙伴的支撑 。
随着大模型时代的到来和深入,这种解决思路也正在成为共识 。
像一些大模型玩家要实现大模型优化和迭代,并不能依靠以往单纯三驾马车来解决,而是需要从底层芯片到模型部署端到端的系统优化 。
在算力加速层面的玩家,一方面摆脱不了摩尔定律的极限,另一方面要在应用场景中充分释放计算潜力,就需要与软件适配快速部署 。
有意思的是,在最近OCR主题的《至强实战课》中,英特尔人工智能软件架构师桂晟曾这样形容英特尔的定位:
>英特尔不仅仅是一个硬件公司,同时也拥有着庞大的软件团队 。
>在整个人工智能生态中,不论是从底层的计算库,到中间的各类组件,框架和中间件,再到上层的应用,服务和解决方案都有英特尔软件工程师的参与 。
大模型时代的下OCR,“CPU味道”更重了

文章插图
CPU加速,不再是你以为的加速 。英特尔,也不再是以往所认知中的硬件公司 。
但如果你以为英特尔只有CPU来加速AI,那你又单纯了 。
针对AI的专用加速芯片Habana®? Gaudi 2®? 即将迎来首秀;
而通用加速芯片,同时兼顾科学计算和AI加速的英特尔®? 数据中心GPU Max系列也刚刚结束了它在阿贡实验室Aurora系统中的部署,即将走近更多客户 。


推荐阅读