『计算』浪潮王恩东:建设新型基础设施,智算需先行 | CEO说( 三 )


浪潮作为三大开放计算标准组织的发起会员或白金会员、OpenStack开源社区黄金会员 , 正在积极将开源开放的建设理念和标准向全球推广 , 大力推进开放计算生态发展 。 所有顶级互联网数据中心已经大规模落地了开放计算服务器 , 通信、金融、能源等关键领域的TOP企业也纷纷加入这些开源组织并在数据中心建设中加以实践 。 像OpenStack、K8S、Hadoop、TensorFlow等面向云计算、大数据、人工智能等场景的开源基础软件 , 已经成为了智算中心软件平台的事实标准 , 超过80%的企业都在其数据中心中应用了开源软件技术 。
开放计算带来的好处是显而易见的 , 以浪潮的某个大型数据中心客户为例 , 使用开放计算架构能够节约电力 30% , 系统故障率降低 90% , 投资收益提高33%;并且运维效率提升3倍以上 , 交付速度可达到每天1万台 。
基础设施必然要以规模效应来实现降本增效 , 要能够快速建设 。 这就要求智算中心的建设就好比现在盖房子一样 , 采用预生产的、标准化模块化的硬件来实现“装配式”建设 。 从标准化的节点单元 , 到标准化的整机柜 , 到标准化的微模块数据中心 , 再到整个智算中心 , 就像乐高积木一样 , 层层组装 , 快速建设 。
作为基础设施 , 要求不同的智算中心能够互联互通 。 包括管理上的互操作 , 统一的调度分发、监控运维;业务上的互连接 , 包括网络打通、业务迁移等;数据上的互流通 , 实现容灾、数据共享等 。
基础设施的超大规模要求智算中心应该是集约高效的 。 首先 , 智算中心要整体设计 , 理念先进 。 技术上 , 融合架构代表着数据中心体系结构的未来发展方向 。 融合架构从1.0到2.0,已经实现了存储资源和异构计算资源的弹性组合 。 现在的融合架构 , 正处于3.0阶段 , 也就是通过连接、池化和重构的技术 , 实现不同计算资源的协同能力 , 通过软件定义实现业务自动感知和资源自动重构 , 使计算的性能和效率大幅度的提升 。
硬件层面 , 通过硬件重构实现资源池化 。 CPU与GPU、FPGA、xPU等各种加速器将更加紧密结合 , 利用全互联NVSwitch、CXL、Open CAPI等新型超高速内外部互连技术 , 实现异构计算芯片的融合;CPU之间可以通过池化融合的方式实现灵活组合 , 可以根据业务场景动态形成1路到多路多种计算单元;异构存储介质 , 如NVMe , SSD , HDD等则通过高速互连形成存储资源池 。
在计算和存储资源池中 , 除了传统CPU、GPU等 , 还可以应用更多新型计算芯片、存储介质和互连技术 , 进一步提升数据中心的处理能力 。
例如 , 谷歌专为人工智能设计的芯片TPU 。 与GPU相比 , TPU采用低精度(8位)计算 , 以降低每步操作使用的晶体管数量 , 是同代CPU或者GPU速度的15-30倍 。 同时 , TPU还可以进行池化 , 实现了TPU之间的高速互联 , 也就是TPU POD , 并对外提供TPU算力服务 。
存储方面 , 非易失内存DCPMM , 既可以作为高速硬盘使用 , 也可以作为标准的内存使用 , 当作为内存使用时 , 其单条内存容量最大可以到512GB , 使得推理作业密度提升一倍 , 每单位作业成本下降近50% 。
互连方面 , 异构芯片高速互连的技术CXL、open CAPI等 , 实现了CPU和设备、设备和设备之间的内存共享 , 构建高效池化的智算中心从理想照进了现实 。
软件层面 , 则通过软件定义 , 在可重构的硬件资源池基础上 , 通过灵活的组织 , 将不同的资源池组成专业的服务器、存储、网络系统 , 并实现资源的高效管理和调度以及数据在池化资源的灵动流转 。 当AI与软件定义结合后 , 赋予了软件定义更高级的含义 。 从业务上 , 实现了基于业务特征感知的智能资源调度 , 让合适的资源在合适的位置去执行合适的任务 , 就像我们说的让合适的人去干合适的事一样 。 从管理上 , 实现了智能化的运维 , 也就是智算中心的无人巡检、故障自愈等 。


推荐阅读