懂懂笔记|浪潮万亿AI市场攻略“探秘”起因:向更远处多看一眼结果:头部效应和护城河未来:千亿和万亿市场的选择( 二 )


此后几年 , 通过与CSP大客户建立面向未来应用的联合定制开发与合作形态 , 浪潮在多节点服务器这一细分市场异军突起 。 与此同时 , 研发团队对于“异构加速计算”的长期技术储备和积累也开始彰显 。
彼时 , 在全球服务器大厂对英伟达研发的NVLink计算系统仍抱有怀疑态度的时候 , 浪潮却在全球率先全力投入研发基于NVLink的高速AI服务器 , 当时的浪潮NF5288M5(AGX-2)是全球首款在2U空间内高速互联集成8颗最高性能GPU加速器的服务器产品 , 而且率先支持部署8块NVLink接口的P100 GPU , 包括支持NVLink 2.0 。
一个业内共识是 , 这样一个系统从立项到产品面世需要十几个月的开发周期 。 当其他大厂发现这个趋势并启动立项时 , 浪潮的领跑优势开始凸显 , “我们这款机器出来的时候 , 整个客户市场的受欢迎程度非常热烈 , 别人很难想象这样一个(巨大的)客户需求判断 , 是在十几个月前做出的 。 ”刘军坦言 。
显然 , 这种预判不是赌也不是靠占卜算命 , 而是浪潮笃定了这一产业趋势 , 相信AI就是改变未来计算世界核心的技术创新力 。
如果观察近几年浪潮服务器的变化 , 还有一个特点就是在AI领域的“软硬兼施” 。 外界对于浪潮服务器的品牌印象一直是“偏硬” , 实际上其研发团队在AI计算领域很早就在探索软件和生态的支撑环境 。 从几年前开始专注异构加速 , 浪潮就拥有了国内唯一一个强大的GPU硬件软件移植优化团队 , 并且开始从系统架构层面入手 , 针对硬件、软件和应用等多个维度的优化和创新 。
懂懂笔记|浪潮万亿AI市场攻略“探秘”起因:向更远处多看一眼结果:头部效应和护城河未来:千亿和万亿市场的选择
本文插图

“实话讲 , 这个特点和对计算本质的认识 , 确实对浪潮服务器起了非常关键性的作用 。 ”刘军表示 , 在GPU加速进入到深度学习领域时 , 研发团队敏锐发掘并开始应用深度学习AI 。 当时包括很多大型互联网公司也不具备在GPU加速方面的经验 , 浪潮与业界领先的AI公司在GPU加速和框架优化方面进行了深入合作 , 进一步对互联网企业在AI计算方面的软件平台、软件框架方面需求进行挖掘和分析 , 针对客户的痛点进行深入创新 。
研发团队当时开发并开源发布了集群版Caffe(Caffe-MPI) , 此后成功实现了全球首个并行集成版本的UPI , 同时还带来了业界最好的扩展性能;此外在自动机器学习领域 , 浪潮AutoML Suite已经可以实现企业级一站式模型自动构建 , 支持本地化和云端部署、并行高效模型搜索等能力;在AI算法创新层面 , 最新研发的AI大模型计算框架LMS , 可将NLP智能语言模型参数规模突破73亿 , 相比业界主流水平提升20倍以上 。 “另外 , 我们最早把计算资源管理和调度技术带入到了AI计算领域中 , 就是现在大家看到的浪潮AI开发平台AIStation , 已经成为国内AI客户应用最广泛的AI资源调度平台 。 ”
通过浪潮在服务器产品创新、算力平台创新、算法优化 , 架构优化等方面的实力展现 , 外界可以看到其在智慧计算方面的前瞻性和创新能力 , 这也是本次浪潮AI服务器MLPerf测试中拿下18项全球性能纪录的直接原因 。 但是如果仅从技术创新角度这一个点去分析 , 似乎并不能洞悉浪潮服务器在全球市场持续领先的完整内因 。
换言之 , 浪潮的领跑有着自己的内在逻辑 , 即在AI大势中形成了内部、外部相融合的正向循环 , 由聚焦新赛道——技术领先——掌握客户需求——市场头部效应——生态建设 , 再将资源和能力投入到新的赛道和技术领域 , 周而复始 。
所以 , 在技术创新的背后 , 这一正循环的形成包括了用户需求和技术积累的积淀 , 继而才会有市场引领的状态 , 以及推进生态建设的长远规划布局 。
结果:头部效应和护城河 刘军也强调 , 正是因为在AI领域的提前布局 , 浪潮服务器才能够在快速兴起的人工智能浪潮里获得了最大的市场份额 , 最优质的客户 。 这里面的关键点 , 正是“最具趋势性和代表性的用户需求” 。


推荐阅读