ChatGPT 的「神功」,是如何炼成的?( 四 )


但直到 2018 年前,这就是 NLP 领域里能采用的预训练典型做法了 。
采用 Word Embedding 来初始化 NLP 神经网络有那么点效果,但没有期待的那么好 。这里面还有一个逻辑上的原因:一个单词有多义词问题 。所以企图在一个数学空间里用一个固定的数学向量来表征一个单词的意义,还要求含义相近的单词都聚在一起 。在面对多义词的时候, 这在逻辑上显然就是矛盾的 。
当然了,聪明的 AI 研究人员肯定还是有办法 。既然一个单词存在多义性,固定的 Word Embedding 向量无法表达单词的多个含义,那么是不是可以先训练好一个单词的 Word Embedding,然后在实际使用中,根据句子里的上下文语义去动态调整这个 Word Embedding 数值,这样经过调整后的「动态 Word Embedding」 更能准确表达单词在上下文的具体含义,同时自然的,解决了多义词的问题 。
这个根据当前上下文来动态调整 Word Embedding 的想法就是顶级学术会议 NAACL 2018 年的最佳论文「Deep Contextualized Word Representation」,这个 NLP 模型命名为 ELMO(Embedding from Language Models,基于语言模型的词嵌入)
ELMO 引入上下文动态调整单词 Word Embedding 后,多义词问题就被彻底解决了,而且比预期的解决得还好:利用 ELMO 改进过的多种不同 NLP 任务,性能上都有幅度不同的提升,最高达到了 25%,不愧是最佳论文 。
此外,ELMO 还有一个贡献,研究人员发现 ELMO 所使用的深度神经网络模型里,不同层次提取到的特征是有差异的 。看到这里,读者想起了什么没有? 是不是和图像预训练的模型层级特征有点像了?
让我们复习一下,前面讲过,图像处理领域进行大规模预训练后,把深度学习网络每层参数做可视化后可以看到,深度学习网络每一层都对应着不同抽象层级的「特征」,在图像领域里,就是从底层的线段,到中间层的具体五官细节,再到高层的脸型,等等 。
再说一次,「预训练」为什么是一个特别重要的概念? 这是因为好的「预训练」可以直接利用大量标准通用的的训练数据(图像领域就是图片,NLP 领域就是语料),把深度学习模型调整到了 90% 甚至更高程度的可用状态,预训练好的模型最后通过任务相关的少量训练数据,就能微调至完全胜任各种特定任务,这真是一个很美妙的事情 。
那么,ELMO 出现后,自然语言处理领域的「预训练」有可能赶上图像领域了吗?
遗憾的是,还差一口气 。
因为技术原因,LEMO 模型在抽取文字特征方面还比较弱,这是一个技术上的缺陷,意味着这个模型就无法很好完成 NLP 的「预训练」梦想: 特征都抽取不好,怎么让网络里每一层具体表达不同逻辑层级的特征呢 。而从技术细节上对比,也会发现 ELMO 这种「预训练」方法和图像领域的预训练方法,两者在模式上还有很大差异 。
自然语 AI 研究人员还需要继续找到一个方法,希望这个方法能很好的提取出文字的特征,就类似图像处理领域的神经网络模型,能很好的提取图像不同逻辑层面的特征 。
恰就在时间刚好的 2017 年底, Google 研究人员发表了一篇里程碑式的论文, 这一篇论文提出的「自我注意力」机制让自然语言处理揭开了崭新的篇章 。
04
注意力机制
和 Transformer
2017 年 12 月,Google 在顶级机器学习会议 NIPS 上发表了论文《Attention is all you need》,提出在机器翻译上大量使用自注意力(Self Attention)机制来学习文本表示,并把这种机制模型起了个霸气的名字:Transformer 。
这篇论文一经出世就横扫了整个自然语言处理学术界,Transformer 迅速的取代了深度学习里传统的循环神经网络(RNN)成为了之后的大语言模型的标准配置 。
Transformer 是目前 NLP 领域里最强的特征提取器,本质上 Transformer 是一个叠加的「自注意力机制」构成的深度网络 。
包括我们现在所知道的 OpenAIGPT 系列模型,以及 GoogleBERT 系列模型,都受到了这篇文章的启发采用了部分 Transformer 的架构,从而取得了突破性的效果 。
先说个题外话,笔者感慨,论文是否牛,一看题目就知道,这篇论文连题目都如此特别和霸气 。
话说回来,什么是注意力机制? 深度学习里的注意力机制其实是一种思想,参考借鉴了人类的注意力思维方式 。
视觉注意力机制是人类视觉所特有的大脑信号处理机制,我们的眼睛会快速扫描全局图像,得到需要重点关注的区域,就是所谓的注意力焦点后,再进一步对相关区域投入更多的关注 。这是人类在长期进化中获得的一种生存机制,极大提高了人类信息处理的效率和准确性 。


推荐阅读