正如过去二十年见证了“云计算技术栈”的出现一样,在接下来的几年里,我们也期待着一个巨大的基础设施和工具生态系统将围绕着智能架构 - Infrastructure 3.0 建立起来 。Google 目前正处于这个领域的前沿,他们试图自己的大部分代码用 软件 2.0的范式重写,并在新的智能架构里运行,因为一个有可能一统江湖的“模型”的已经出现,虽然还非常早期,但 机器智能对世界的理解很快将趋向一致,就像我们的 大脑皮质层 理解世界那样 。
04 一统江湖的模型
想象一下,你去五金店,看到架子上有一种新款的锤子 。你或许已经听说过这种锤子了,它比其他的锤子更快、更准;而且在过去的几年里,许多其他的锤子在它面前都显得过时了 。你只需要加一个配件再扭一下,它就变成了一个锯子,而且和其它的锯子一样快、一样准 。事实上,这个工具领域的前沿专家说,这个锤子可能预示着所有的 工具都将集中到单一的设备中 。
类似的故事也在 AI 的工具中上演,这种多用途的新型锤子是一种神经网络,我们称之为 Transformer( 转换器模型- 不是动画片里的变形金刚),它最初被设计用来处理自然语言,但最近已经开始影响 AI 行业的其它领域了 。
4.1 Transformer 的诞生
2017年 Google Brain 和多伦多大学的研究人员一同发表了一篇名为《Attention Is All You Need》的论文,里面提到了一个自然语言处理(NLP)的模型 Transformer,这应该是继 GANs 之后 Deep Learning 领域最重大的发明 。2018 年 Google 在 Transformer 的基础上实现并开源了第一款自然语言处理模型 BERT;虽然研究成果来自 Google,但很快被 OpenAI 采用,创建了 GPT-1 和最近的火爆的 GPT-3 。其他公司还有开源项目团队紧随其后,实现了自己的 Transformer 模型,例如 Cohere,AI21,Eleuther(致力于让 AI 保持开源的项目);也有用在其它领域的创新,例如生成图像的 Dall-E 2、MidJourney、Stable Diffusion、Disco Diffusion, Imagen 和其它许多 。
配图16:发表《Attention Is All You Need》论文的八位同学
发表这篇论文的 8 个人中,有 6 个人已经创办了公司,其中 4 个与人工智能相关,另一个创办了名为 Near.ai 的区块链项目 。
自然语言处理 这个课题在上世纪五十年代开创 AI 学科的时候就明确下来了,但只到有了 Deep Learning 之后,它的准确度和表达合理性才大幅提高 。序列传导模型(Seq2Seq)是用于 NLP 领域的一种 DL 模型,在机器翻译、文本摘要和图像字幕等方面取得了很大的成功,2016 年之后 Google 在搜索提示、机器翻译等项目上都有使用 。序列传导模型是在 输入端 一个接一个的接收并 编码 项目(可以是单词、字母、图像特征或任何计算机可以读取的数据),并在同步在 输出端一个接一个 解码 输出项目的模型 。
在机器翻译的案例中,输入序列就是一系列单词,经过训练好的神经网络中复杂的 矩阵数学计算,在输出端的结果就是一系列翻译好的目标词汇 。
Transformer 也是一款用于 NLP 的序列传导模型,论文简洁清晰的阐述了这个新的网络结构,它只基于 注意力机制(Attention),完全不需要递归(RNN)和卷积(CNN) 。在两个机器翻译的实验表明,这个模型在质量上更胜一筹,同时也更容易并行化,需要的训练时间也大大减少 。
好奇心强的同学,如果想了解 Transformer 模型的具体工作原理,推荐阅读 Giuliano Giacaglia 的这篇《How Transformers Work》 。
4.2 Foundation Models
斯坦福大学 CRFM & HAI 的研究人员在 2021 年 8 月的一篇名为《On the Opportunities and Risks of Foundation Models》的论文中将 Transformer 称为 Foundation Models(基础模型),他们认为这个模型已经推动了 AI 领域新一轮的范式转移 。事实上,过去两年在 arVix 上发表的关于 AI 的论文中,70% 都提到了 Transformer,这与 2017 年 IEEE 的一项研究 相比是一个根本性的转变,那份研究的结论是 RNN 和 CNN 是当时最流行的模型 。
从 NLP 到 Generative AI
来自 Google Brain 的计算机科学家 Maithra Raghu 分析了 视觉转换器(Vision Transformer),以确定它是如何“看到”图像的 。与 CNN 不同,Transformer 可以从一开始就捕捉到整个图像,而 CNN 首先关注小的部分来寻找像边缘或颜色这样的细节 。
这种差异在语言领域更容易理解,Transformer 诞生于 NLP 领域 。例如这句话:“猫头鹰发现了一只松鼠 。它试图抓住它,但只抓到了尾巴的末端 。” 第二个句子的结构令人困惑: “它”指的是什么?如果是 CNN 就只会关注“它”周围的词,那会十分不解;但是如果把每个词和其他词连接起来,就会发现是”猫头鹰抓住了松鼠,松鼠失去了部分尾巴” 。这种关联性就是“ Attention”机制,人类就是用这种模式理解世界的 。
推荐阅读
- Windows为啥难以摆脱隔代升级的魔咒?
- 美国国家安全局督促弃用 C/C++,使用更安全的 Rust、C# 等
- 黑客攻击致破产的FTX再损失6亿美元用户资产,安全专家称其大概率是内部人员
- 作为我国首位女性航天员,刘洋当然有报道的价值 我国女航天员刘洋所在机组
- 屈原投江的节日是什么 因为屈原投江才有了端午节
- 全球十大蜜月旅游胜地之一 世界最适合度蜜月的旅游胜地
- 已所不欲,勿施于人的理解和体会 己所不欲勿施于人的理解和体会自己的亲身体会
- 鹿晗|周杰伦鹿晗11月19号晚8点同时开演唱会,你会去谁的直播间?
- 汪小菲|汪小菲说要亲自教女儿学法语,这又是一个不能兑现的诺言
- 王佳颖|山东王佳颖事件,她长相虽不咋样,可是会的花样很多
