「电子工程世界」软件定义的硬件提供打开高性能数据加速大门的钥匙


在众多的行业中 , 数据加速是构建高效、智能系统的关键之处 。 传统的通用处理器在支持用户去突破性能和延迟限制方面性能不足 。 而已经出现的许多加速器技术填补了基于定制芯片、图形处理器或动态可重构硬件的空白 , 但其成功的关键在于它们能够集成到一个以高吞吐量、低延迟和易于开发为首要条件的环境之中 。 由Achronix和BittWare联合开发的板级平台已针对这些应用进行了优化 , 从而为开发人员提供了一条可部署高吞吐量数据加速的快捷途径 。
日益增长的分布式加速需求
在云计算和边缘计算中 , 业界渴求能够支持各种应用的高性能 。 为了满足这一需求 , 数据中心、网络集群和边缘计算站点的运营商正在转向定制化的加速器技术 。
对于需要高性能计算平台的用户 , 专用加速器在实践中被常用来应对各种挑战;这些用户不再依靠诸如Intel Xeon系列CPU这样的传统通用CPU来支持数据吞吐量不断增长这一需求 。 通用CPU的核心问题在于 , 尽管摩尔定律一直在以大约每两年就会使每平方毫米硅片中集成的晶体管数量增加一倍的速度演进 , 但它不再支持时钟速率的增长 。 此外 , CPU内的并行性很快达到了天花板 。 因此 , 其他技术更适合支持新型工作负载 , 包括如机器学习、基因组研究、数学和统计分析、语音和图像识别以及数据挖掘和搜索 。
与传统由数据库驱动的应用相比 , 这些新的工作负载通常无法很好地映射到传统CPU流水线上;例如一些神经网络的训练已被验证可以在GPU上运行良好 , 这些算法可以利用数百个并行浮点着色器内核通过所需的数万亿个步骤来迭代更新一个大型网络 。 另一方面 , 基因组研究和数据搜索需要利用大量的对比步骤 , 并需处理低分辨率的整数数据 。 尽管这些工作负载可以利用CPU或GPU来完成处理 , 但是在这些平台上运行时 , 这些任务的计算效率和能效相对较低 。 自定义的基于ASIC或FPGA的加速器能够以更低的功耗提供更大的吞吐量 , 这是因为它们支持设计人员去构建针对这些操作和数据类型进行优化的专用电路 。
互联网搜索和社交媒体等领域内的超大规模数据中心运营商已采用加速器概念来保障其服务器载荷的高效运转 。 语音响应系统现在已经被用于日常生活中 , 并得到了运行在传统刀片服务器与自定义加速器组合上的人工智能算法的支持 。 随着对这些基于机器学习和数据挖掘等技术的应用的需求不断增长 , 大量的企业用户正在转向基于加速器的方案 , 以使他们自己能跟上需求的步伐 。 据研究机构Research and Markets的分析预测 , 仅数据中心加速器这一市场的规模 , 就将从2018年的28亿美元增长到2023年的212亿美元 , 复合年增长率接近50% 。
在这种增长之外 , 加速器的应用还注定将扩展到数据中心之外 。 诸如虚拟现实、自动驾驶、机器人技术和工业4.0等领域无法忍受信息在经过远程数据中心中继后带来的电信延迟 。 越来越多的计算能力将需要被部署在边缘计算机架中 , 而被安装于路边机柜中、移动基站旁或校园柜子内 。
在各种数据中心和边缘计算用例中 , 有诸多常见的需求驱动因素 , 比如能效 , 快速转型 , 以及可扩展性 。 能效是降低冷却成本和复杂性以及将电费花销降到最低的核心要求 。 低功耗操作在边缘计算装置中至关重要 , 因为其中的环境温度的控制功能较弱 , 并且还需将维护的需求保持在最低限度 。
在许多领域中 , 快速转型是不可避免的 , 并会创造新的需求 , 以便在变化出现时能够根据要求对应用进行调整和再加工 。 它不仅仅是对现有应用的更新;通常 , 新的用例在出现时 , 都会挑战用户及时做出反应的能力 。 而这些用例可能需要开发将不同的技术和概念结合在一起的应用 , 例如将人工智能(AI)功能添加到数学建模和数据挖掘系统中 。 为了应对这些转型 , 用户需要调用可以很好地进行协同工作的加速器技术 , 并且各个组件可以通过网络连接来进行高速通信 。


推荐阅读