配图14:Intelligence Infrastructure from Determined AI
参照智能架构领域的投资专家 Amplify Partners 的分类,简单做个技术栈说明 。
- 为 Machine Learning 优化的高性能芯片,它们内置多计算核心和高带宽内存(HBM),可以高度并行化,快速执行矩阵乘法和浮点数学神经网络计算,例如 Nvidia 的 H100 Tensor Core GPU 还有 Google 的 TPU;
- 能够完全发挥硬件效率的系统软件,可以将计算编译到晶体管级别 。Nvidia 在 2006 年就推出的 CUDA 到现在也都保持着领先地位,CUDA 是一个软件层,可以直接访问 GPU 的虚拟指令集,执行内核级别的并行计算;
- 用于训练和推理的分布式计算框架(Distributed Computing Frameworks),可以有效地跨多个节点,扩展模型的训练操作;
- 数据和元数据管理系统,为创建、管理、训练和预测数据而设计,提供了一个可靠、统一和可重复使用的管理通道 。
- 极低延迟的服务基础设施,使机器能够快速执行基于实时数据和上下文相关的智能操作;
- Machine Learning 持续集成平台(MLOps),模型解释器,质保和可视化测试工具,可以大规模的监测,调试,优化模型和应用;
- 封装了整个 Machine Learning 工作流的终端平台(End to End ML Platform),抽象出全流程的复杂性,易于使用 。几乎所有的拥有大用户数据量的 2.0 架构公司,都有自己内部的 3.0 架构集成系统,Uber 的 Michelangelo 平台就用来训练出行和订餐数据;Google 的 TFX 则是面向公众提供的终端 ML 平台,还有很多初创公司在这个领域,例如 Determined AI 。
2.3 智能架构的先锋
Deep Learning 被大科技公司看上的关键时刻是在 2010 年 。在 Palo Alto 的一家日餐晚宴上,斯坦福大学教授 Andrew Ng 在那里会见了 Google 的 CEO Larry Page 和当时担任 Google X 负责人的天才计算机科学家 Sebastian Thrun 。就在两年前,Andrew 写过一篇关于将 GPU 应用于 DL 模型有效性分析论文 。要知道 DL 在 2008 年是非常不受欢迎的,当时是算法的天下 。
几乎在同一时期,Nvidia 的 CEO Jensen Huang 也意识到 GPU 对于 DL 的重要性,他是这样形容的:"Deep Learning 就像大脑,虽然它的有效性是不合理的,但你可以教它做任何事情 。这里有一个巨大的障碍,它需要大量的计算,而我们就是做 GPU 的,这是一个可用于 Deep Learning 的近乎理想的计算工具" 。
以上故事的细节来自 Forbes 在 2016 年的一篇深度报道 。自那时起,Nvidia 和 Google 就走上了 Deep Learning 的智能架构之路,一个从终端的 GPU 出发,另一个从云端的 TPU 开始 。

文章插图
配图15:Nvidia AI vs Google AI 的对比
Nvidia 今天赚的大部分钱的来自游戏行业,通过销售 GPU,卖加速芯片的事情 AMD 和很多创业公司都在做,但 Nvidia 在软件堆栈上的能力这些硬件公司无人能及,因为它有从内核到算法全面控制的 CUDA,还能让数千个芯片协同工作 。这种整体控制力,让 Nvidia 可以发展云端算力服务,自动驾驶硬件以及嵌入式智能机器人硬件,以及更加上层的 AI 智能应用和 Omniverse 数字模拟世界 。
Google 拥抱 AI 的方式非常学术,他们最早成立了 Google Brain 尝试大规模神经网络训练,点爆了这个领域的科技树,像 GANs 这样充满灵感的想法也是来自于 Google (Ian Goodfellow 同学当时任职于 Google Brain) 。在 2015 年前后 Google 先后推出了 TensorFlow 还有 TPU(Tensor Processing Unit - 张量芯片),同年还收购了 DeepMind 来扩张研究实力 。Google AI 更倾向于用云端的方式给大众提供 AI/ML 的算力和全流程工具,然后通过投资和收购的方式把智能融入到自己的产品线 。
现在几乎所有的科技巨头,都在完善自己的“智能”基础设施,Microsoft 在 2019 年投资了 10 亿美金给 OpenAI 成为了他们最大的机构股东;Facebook 也成立了 AI 研究团队,这个仅次于他们 Reality Lab 的地位,Metaverse 里所需的一切和“智能”相关的领域他们都参与,今年底还和 AMD 达成合作,投入 200 亿美元并用他们的芯片来搭建新的“智能”数据中心;然后就是 Tesla,在造电车之外不务正业搭建了世界上规模最大的超级电脑 Dojo,它将被用来训练 FSD 的神经网络和为未来的 Optimus(Tesla 人形机器人)的大脑做准备 。
推荐阅读
- Windows为啥难以摆脱隔代升级的魔咒?
- 美国国家安全局督促弃用 C/C++,使用更安全的 Rust、C# 等
- 黑客攻击致破产的FTX再损失6亿美元用户资产,安全专家称其大概率是内部人员
- 作为我国首位女性航天员,刘洋当然有报道的价值 我国女航天员刘洋所在机组
- 屈原投江的节日是什么 因为屈原投江才有了端午节
- 全球十大蜜月旅游胜地之一 世界最适合度蜜月的旅游胜地
- 已所不欲,勿施于人的理解和体会 己所不欲勿施于人的理解和体会自己的亲身体会
- 鹿晗|周杰伦鹿晗11月19号晚8点同时开演唱会,你会去谁的直播间?
- 汪小菲|汪小菲说要亲自教女儿学法语,这又是一个不能兑现的诺言
- 王佳颖|山东王佳颖事件,她长相虽不咋样,可是会的花样很多
