雷锋网@产业AI化的算力流水线,浪潮如何实践?


人工智能由一种技术发展成产业 , 这是过去数年方兴未艾的行业轨迹 , AI产业化如语音识别 , 想象空间很大却有天花板 , 而将千行百业AI化 , 则是公认的广阔天地大有可为 。
“行业信息化市场已经步入了产业AI化阶段 , 这将会是一个万亿级的市场 。 ”在近日召开的IPF2020浪潮云数据中心合作伙伴大会上 , 浪潮集团执行总裁、首席科学家王恩东如此表示 。
【雷锋网@产业AI化的算力流水线,浪潮如何实践?】从技术AI进化至产业AI的中途 , 不同企业都在探索 , 边界模糊、定位重塑 , 这是全新的机会 , 可能诞生新产业形态的巨头 , 也可能淘汰一些竞争壁垒不强的企业 , 置身变革之中的浪潮 , 也在从底层算力向上寻找突破垛口 。
结合浪潮自身的定位和产业AI化的前景 , 浪潮搭建了生产算力、聚合算力、调度算力和释放算力来加速落地AI的流水线 , 体现出浪潮对于AI算力的理解 。
生产算力:覆盖训练、推理和边缘 , 最全算力产品线
作为服务器厂商 , 算力的生产是浪潮最基础的能力 , 浪潮已经形成完整的产品布局 , 能够提供全线定制化的人工智能芯片和加速卡 , 覆盖从训练到推理 , 从语音到语义 , 从边缘到云到AI加速到各类相关的AI应用的场景 。

雷锋网@产业AI化的算力流水线,浪潮如何实践?
本文插图

据浪潮官方表示 , 浪潮目前能够提供业界最全和拥有最高性能组合的AI服务器产品线 , 拳头型产品如针对训练场景的AGX-2 , 是目前全球首款在2U空间能够支持互联八颗最高性能GPU的AI服务器 , AGX-5是目前全球单机AI计算性能最强的AI超级服务器 , 单机张量计算性达每秒两千万亿次 , 此外还有面向边缘计算的NE5250M5等产品 。
本次大会上 , 浪潮发布了全球首个AI开放加速计算系统MX1 , 在同一机组内能够支持不同厂家的AI芯片 , 意味着它可以支持多种符合OAM(OCP Accelerator Module)开放标准的接口 。

雷锋网@产业AI化的算力流水线,浪潮如何实践?
本文插图

生产算力不只是硬件工作 , 如何让大规模计算在硬件平台上实现 , 必须要有与之相匹配的软件优化产品和技术 。 比如当下Common Crawl数据集最大接近250TB , 如此之大的数据集 , 需要大规模深度神经网络来训练 , 受限于GPU显存有限 , 无法实现超大参数规模和高分辨率图片模型训练 。 对此 , 浪潮研发出LMS系统 , 它可以实现大模型内部细粒度模型的分层 , 从而释放GPU显存压力 , 同时针对图像计算整体优化 。
“在针对三维的核磁共振图像的模型训练 , 浪潮LMS系统支持到350百万像素立方的超大尺寸图像分辨率 , 而在现在通用的GPU技术只能做到200百万像素立方左右的尺寸分辨率 。 ”浪潮AI&HPC总经理刘军表示 。
浪潮自研的AI大模型计算框架LMS , 在NLP智能语言模型训练突破70亿参数规模 , 相比通用参数模型规模提升20倍以上 。
聚合算力:高性能NVMe存储池 , 深度优化软件栈
算力生产之后 , 数据中心扮演聚合算力的角色 , 当前云数据中心仍有许多固有挑战 , 比如虚拟交换、VXlan等技术大量消耗CPU的资源 , 最多时损耗高达50% , 此外 , 网络抖动、带宽、IOPS的增加都可能拉低云数据中心性能 , 同时裸金属服务器、软件定义网络等需求成为主流 , 也给数据中心带来新的难题 。
AI算力中心上线推理服务时 , 尤其高并发推理服务 , 最大挑战来自海量文件IO处理的瓶颈 , 浪潮专门针对高并发推理集群进行架构优化 , 构建高性能的基于NVMe的存储池 。 具体操作是将AI计算的软件栈进行深度的优化 , 把所有推理节点进行高带宽 , 低延迟的高速网络优化 , 性能提升3.5倍以上 。
在数据中心网络加速方面 , 推出N20X智能网络加速方案 , 最高可释放50%的CPU计算资源 , IOPS延迟降低30%以上 。


推荐阅读