通俗解构语言大模型的工作原理( 八 )


值得注意的是 , 研究人员并不全都认可这些结果证明了心智理论:例如 , 对错误信念任务的微小更改导致GPT-3的性能大大下降(https://arxiv.org/abs/2302.08399);而GPT-3在测量心智理论的其他任务中的表现更为不稳定(https://openreview.NET/forum?id=e5Yky8Fnvj) , 正如其中肖恩所写(https://onlinelibrary.wiley.com/doi/full/10.1111/cogs.13309)的那样 , 成功的表现可能归因于任务中的混淆因素——一种“聪明汉斯(clever Hans , 指一匹名为汉斯的马看似能完成一些简单的智力任务 , 但实际上只是依赖于人们给出的无意识线索)”效应 , 只不过是出现在了语言模型上而不是马身上 。
尽管如此 , GPT-3在几个旨在衡量心智理论的任务上接近人类的表现 , 这在几年前是无法想象的 , 并且这与更大的模型通常在需要高级推理的任务中表现更好的观点相一致 。
这只是语言模型表现出自发发展出高级推理能力的众多例子之一 。今年4月 , 微软的研究人员发表的一篇论文(https://arxiv.org/abs/2303.12712)表示 , GPT-4展示了通用人工智能的初步、诱人的迹象——即以一种复杂、类人的方式思考的能力 。
例如 , 一位研究人员要求GPT-4使用一种名为TiKZ的晦涩图形编程语言画一只独角兽 。GPT-4回应了几行代码 , 然后研究人员将这些代码输入TiKZ软件 。生成的图像虽然粗糙 , 但清晰地显示出GPT-4对独角兽的外观有一定的理解 。
研究人员认为 , GPT-4可能以某种方式从训练数据中记住了绘制独角兽的代码 , 所以他们给它提出了一个后续的挑战:他们修改了独角兽的代码 , 移除了头角 , 并移动了一些其他身体部位 。然后他们让GPT-4把独角兽的头角放回去 。GPT-4通过将头角放在正确的位置上作出了回应:

通俗解构语言大模型的工作原理

文章插图
尽管作者的测试版本的训练数据完全基于文本 , 没有包含任何图像 , 但GPT-4似乎仍然能够完成这个任务 。不过 , 通过大量的书面文本训练后 , GPT-4显然学会了推理关于独角兽身体形状的知识 。
目前 , 我们对LLM如何完成这样的壮举没有真正的了解 。有些人认为 , 像这样的例子表明模型开始真正理解其训练集中词的含义 。其他人坚持认为 , 语言模型只是“随机鹦鹉(https://dl.acm.org/doi/abs/10.1145/3442188.3445922)” , 仅仅是重复越来越复杂的单词序列 , 而并非真正理解它们 。
这种辩论指向了一种深刻的哲学争论 , 可能无法解决 。尽管如此 , 我们认为关注GPT-3等模型的经验表现很重要 。如果一个语言模型能够在特定类型的问题中始终得到正确答案 , 并且研究人员有信心排除混淆因素(例如 , 确保在训练期间该语言模型没有接触到这些问题) , 那无论它对语言的理解方式是否与人类完全相同 , 这都是一个有趣且重要的结果 。
训练下一个词元预测如此有效的另一个可能原因是 , 语言本身是可预测的 。语言的规律性通常(尽管并不总是这样)与物质世界的规律性相联系 。因此 , 当语言模型学习单词之间的关系时 , 通常也在隐含地学习这个世界存在的关系 。
此外 , 预测可能是生物智能以及人工智能的基础 。根据Andy Clark等哲学家的观点  , 人脑可以被认为是一个“预测机器” , 其主要任务是对我们的环境进行预测 , 然后利用这些预测来成功地驾驭环境 。预测对于生物智能和人工智能都至关重要 。直观地说 , 好的预测离不开良好的表示——准确的地图比错误的地图更有可能帮助人们更好地导航 。世界是广阔而复杂的 , 进行预测有助于生物高效定位和适应这种复杂性 。
在构建语言模型方面 , 传统上一个重大的挑战是 , 找出最有用的表示不同单词的方式 , 特别是因为许多单词的含义很大程度上取决于上下文 。下一个词的预测方法使研究人员能够将其转化为一个经验性问题 , 以此避开这个棘手的理论难题 。
事实证明 , 如果我们提供足够的数据和计算能力 , 语言模型能够通过找出最佳的下一个词的预测来学习人类语言的运作方式 。不足之处在于 , 最终得到的系统内部运作方式人类还并不能完全理解 。


推荐阅读