智东西|征服全球最严AI测试,性能飙升三倍!浪潮AI服务器如何做到?

看点:浪潮AI服务器创18项纪录!较上代性能提升3倍 , 获2020MLPerf训练推理双料冠军 。
智东西|征服全球最严AI测试,性能飙升三倍!浪潮AI服务器如何做到?
本文插图

智东西|征服全球最严AI测试,性能飙升三倍!浪潮AI服务器如何做到?
本文插图
智东西10月26日报道 , 在最近公布的全球“最严格”AI基准测试MLPerf成绩榜单中 , 浪潮凭借自研的AI服务器NF5488A5打破了18项推理性能纪录 , 成为打破纪录最多的AI服务器 , 成功问鼎AI“机王” 。 在焦点赛道ResNet50基准性能测试中 , NF5488A5以54.9万/秒的推理性能问鼎 , 相比2019年榜单服务器全球最好成绩性能提升高达3倍 。
智东西|征服全球最严AI测试,性能飙升三倍!浪潮AI服务器如何做到?
本文插图
▲浪潮NF5488A5创造18项MLPerf推理性能纪录 此前 , MLPerf训练榜单于今年7月公布 , NF5488A5仅用时33.37分钟就完成了ResNet50模型基于ImageNet 数据集的训练任务 , 单机性能高居榜首 。 自此 , 浪潮AI服务器NF5488A5在今年的MLPerf基准测试中取得了训练、推理双料冠军 。浪潮技术负责人对智东西说:“NF5488A5如此高倍的性能的提升要取决于硬件和软件两个层面 。 而对于技术的整体升级来说 , 如果想要把硬件性能完全发挥出来 , 不是说单颗芯片好就够了 , 这对于整个服务器来说是一个系统优化的工程 。 ”
智东西|征服全球最严AI测试,性能飙升三倍!浪潮AI服务器如何做到?
本文插图
▲浪潮AI服务器NF5488A5 被视为全球最权威的AI软硬件基准测试MLPerf到底是一个怎样的存在?浪潮在MLPerf中挤进“破纪录冠军”行列有何意义?浪潮又是如何从Intel、NVIDIA、DELLEMC等大佬云集的参赛队伍中脱颖而出的? 浪潮是如何“突出重围”在MLPerf中问鼎AI“机王”的?智东西与此次浪潮参与MLPerf项目的技术负责人进行了深入对话 , 解构出浪潮AI服务器飞速“成长”背后的故事 。
智东西|征服全球最严AI测试,性能飙升三倍!浪潮AI服务器如何做到?
本文插图
打破18项推理性能纪录 ,新一代AI服务器成最大焦点在“扒开结果看过程”之前 , 我们首先需要知道:MLPerf是什么?MLPerf的冠军 , 到底厉害在哪?
智东西|征服全球最严AI测试,性能飙升三倍!浪潮AI服务器如何做到?
本文插图
▲MLPerf官网首页 当前 , AI的应用日益复杂化、多样化 , 一方面 , AI芯片、系统厂商纷纷给出不同的标准 , 以证实其产品在计算性能、单位能耗力等方面处于行业领先水平;同时 , 用户更关心的则是如何能从厂商给出的信息中判断出AI算力是否能实际满足其真实场景的需求 。因此 , 2018年5月全球AI基准测试组织MLPerf推出了MLPerf基准测试 。 MLPerf基准测试是业内首套衡量机器学习软硬件性能的通用基准 , 即测试深层神经网络在不同量级的设备(物联网、智能手机、PC、服务器)、各种应用(自动驾驶、NLP、计算机)上的计算性能 。MLPerf由图灵奖得主大卫·帕特森(David Patterson)于2018年联合企业及高校成立 。 MLPerf基准联盟现有 50 多家成员 , 包括谷歌、微软、Facebook、阿里巴巴、浪潮等企业 , 以及斯坦福、哈佛等高校 。 本次参赛团队共计 23 家 , 包含 Intel、NVIDIA、DELLEMC、Lenovo、QCT(广达)、Fujitsu、Gigabyte(技嘉)等 。 目前业内最具权威性的AI基准测试非MLPerf莫属 。MLPerf基准测试分为封闭模型分区(Closed Model Division)和开放模型分区(Open ModelDivision): 封闭模型:要求使用相同模型和优化器 , 并限制超参数的值等 , 衡量的是同一深度学习模型及对应的训练/推理过程在不同软硬件上的性能,考察的是软硬件系统优化的能力 。开放模型:放开了对深度学习模型及精度的约束 , 只限制使用相同的数据解决相同的问题 , 模型或平台都不会限制 , 侧重于深度学习模型及算法优化的能力 , 旨在推进ML模型和优化的创新 。今年的MLPerf基准测试包括四大场景类别 , 分别针对:数据中心、边缘端、移动端和notebook端 。 其中 , 浪潮最新自研AI服务器NF5488A5打破了18项纪录 , 成为榜单中打破纪录最多的AI服务器 。


推荐阅读