深度学习的注意力机制在概念上参照了人类的视觉注意力机制,核心目标就是从众多信息里选择出对当前任务更重要和关键的信息 。
具体到 NLP 自然语言处理领域里,在之前,注意力机制一般是指输出句子里某个词和输入句子每个词之间的相似度 。这也很好理解,就是去寻求问题(输入)和答案(输出)之间的关系么 。
但 Google 这篇《Attention is all you need》的特别之处,是明确指出了,我们其实不需要先考虑输入和输出的关系啊,为什么不参考人类理解语言的方式,首先「学习」一句话内部单词之间的关系呢? 这就是所谓的「SelfAttention 自注意力机制」:指的是输入元素之间,或者输出元素之间的内在联系机制 。
文章插图
如上图所示,Self Attention 自注意力机制寻找到了一个句子里单词之间的语义特征,「it」指代的是「the animal」
稍微想一下,Self Attention 自注意力机制在逻辑意义上非常清晰,它让机器去理解人类语言每句话里单词之间的语义关系 。
除了逻辑上看起来更有道理,Self Attention 机制还附带了一个很大的好处:因为网络层面抛弃了传统的 RNN(循环神经网络)模型,彻底规避了 RNN 不能很好并行计算的困扰,极大提高了模型并行训练计算的效率 。更不用说,Attention 注意力机制只关注部分信息,参数较少,容易训练 。
有趣的是,谷歌研究人员在这篇重要论文里差点使用了「注意力网络」这样的命名,只是他们觉得这个名字听起来实在不够响亮,后来团队里一位工程师给起了个名字 Transformer,这看起来就高大上很多了 。
基于自我注意力机制的 Transformer 模型的出现是革命性的,最最重要的一点,它能实现自我监督学习 。所谓自我监督,就是不需要标注的样本,使用标准的语料或者图像,模型就能学习了 。
在 Tranformer 出现之前,我们要训练一个深度学习模型,必须使用大规模的标记好的数据集合来训练神经网络 。对数据进行标注只能人工进行,金钱和时间成本都相当高 。
读者如果还有印象,在笔者上一篇关于 AI 绘画的文章里有讲到,对于 AI 绘画至关重要的跨模态模型 CLIP 之所以成功,是因为它使用了互联网已经带文字标记的图片作为训练数据,巧妙规避了超大规模数据标记的难题 。
而回过头来,Transformer 的核心是在数学上计算输入元素之间的关联(Attention),通过这种模式,Tranformer 成功的消除了训练数据集的标注需求!
这简直是感天动地,我们可以想象一下,从今以后,互联网上或者企业数据库里海量的文本数据都能直接成为大模型的训练数据源了 。
NVIDIA 创始人兼 CEO 黄仁勋在 2022 NVIDIA GTC 大会上表示说,Transformer 使自我监督学习成为可能,并无需人类标记数据,AI 领域出现了「惊人的进展」 。因此,Transformer 正在越来越多的领域中发挥作用 。比如用于语言理解的 Google BERT,用于药物发现的 NVIDIA MegaMolBART 以及 DeepMind 的 AlphaFold2 都要追溯到 Transformer 的突破 。
上面又提到了 Google BERT 语言模型 。这里要插一句,Google 引以为傲的语言大模型 BERT 的架构和 OpenAI GPT 其实非常像,但有一个简单而本质的区别,在训练阶段,Google BERT 输入上文和下文来训练,OpenAI GPT 系列一直坚持只输入上文训练,而结果就是,Google BERT 在体现 AI 分析能力的各种阅读理解等问题上,都表现上佳;而 OpenAIGPT 术业有专攻,在生成式 AI(比如回答各种问题,创造各种文字内容)上一骑绝尘 。
不夸张的说,Transformer 是迄今为止发明的最强大的模型之一 。斯坦福研究人员在 2021 年 8 月的一篇论文把 tranformer 称之为「基础模型「(Foundation model),认为它推动了 AI 整个范式的转变 。
文章插图
Transformer 技术的应用面|英伟达
05
GPT-3,神功初成
受 Google 论文启发,基于 Transformer 模式的 GPT 系列模型作为 OpenAI 的当红炸子鸡,风头当下无两 。
GPT 全称是「Generative Pre-Training」,直译过来就是「生成式的预训练」,有意思吧 。
如前文所说,OpenAI 对 GPT 的生成式 AI 有坚定的信念,因此在训练模型的时候,只选用「上文」来训练模型,也就是说,GPT 本质上是一个极致的概率模型,它根据上文提示,来猜测下一个单词应该是什么 。
推荐阅读
- 人工智能ChatGPT爆火背后:以后跟你一起上网的没有真人了?
- “怪胎”ChatGPT的前世今生,以及未来
- 什么是AOP,AOP能做什么?AOP的特点,Spring AOP的实现
- Python:基于 RGB-D 图像的点云计算
- 聊聊 SpringBoot3 的 Micrometer Tracing
- 盘点12个Vue 3的高颜值UI组件库
- 火爆全网的 ChatGPT,还干不掉 Google 搜索
- 为什么选择 AWS 作为“架构完善的框架”?
- 我误解了分布式系统中的可伸缩性
- 我们都差点被ChatGPT骗了,但这也许是好事儿
