InfoQGPT-3,价值460万美元的语言模型( 三 )


同样 , 如果你关心的是 NLP 基准测试上的成绩 , 那他们的说法还是很有趣的 。 但就整体的语言理解水平而言 , 我看不到有什么明显的进展 。
2.2:关于新颖词
他们其中一项实验 , “学习和使用新单词”给我留下了深刻的印象 , 但其他实验就没这效果了 。 可是这篇论文并没有在这里着墨很多 , 这让我很奇怪 。 (这部分在第 3.9.5 节和表 3.16 。 )这个任务与 Wug 测试联系很紧密——这也是 Gary Marcus 在批评 GPT-2 时很关注的一件事:
[人类的提示]“farduddle”的意思是快速地蹦蹦跳跳 。 这个词的例句:
[GPT-3 延续] 有一天我和妹妹玩耍时 , 她越玩越兴奋 , 开始撒欢儿似的蹦蹦跳跳 。
语言学家研究人类儿童时就会涉及这类任务 , 过去的 NLP 模型在这方面表现很差 。 这方面的进展本应该得到最高的认可 。 作者显然提到了他们在这方面取得的成就 , 但却只是随口一提:论文说他们尝试了 6 次并全部成功(100%的准确度?!) , 但他们显然没把它当回事 , 并没有在较大的样本上重复实验 , 测一个真实指标 , 并展示 w/r/t 参数下的表现 , 等等 。 可是他们在其他 40 项任务上都做了这套流程 , 而我觉得那些任务根本没这么有趣 , 真是让人困惑!
2.3:关于抽象推理
除了常见的 NLP 基准测试外 , 他们还尝试了一些“综合或定性”任务(第 3.9 节) 。 他们的目标是阐明“小样本学习”中学习的实际作用:
在小样本(或单样本和零样本)设置下探究 GPT-3 的能力范围的一种方法 , 是赋予它要求执行简单的即时计算推理的任务 , 识别一种新颖的模式 , 即不太可能在训练中发生 , 或迅速适应异常任务 。
这里的“综合或定性”任务是:
各种形式的简单算术(例如“加两个 2 位数”)
对单个单词的字母所做的各种解谜 / 反转等任务
SAT 类比
感觉这项工作的理论基础还不够牢固 , 所以解释起来很困难 。
拿算术任务来说 。 我们先认可作者的前提 , 那就是模型不仅存储了一些算术问题的查找表 , 而且还可以即时“解决问题” 。 这样 , 模型在这里可能有两种状态(也可能是同时做的):
在训练文本中看到许多相关数字后 , 模型可能已经在内部开发出了一个真正的算术模型 , 并且正在应用该模型来解决你我会遇到的问题;
它可能为各种抽象任务发展出了一些通用推理能力 , 进而可以将算术作为更通用的问题类别的特殊情况来做处理(比如说 , 如果有合适的提示 , 它也会考虑很多算术符号没有实际含义的场景 。 )
只要第 1 种情况出现了 , 小样本学习中的多次提示就没什么意义了:如果模型知道真正的(不是虚假的)算术是如何进行的(它从文本中学到了这一点) , 那么再多的示例也无助于 " 定位任务 " 。 就是说 , 如果它只学会了真实的算术 , 就不需要告诉它“在这个任务中 , + 号是加号的标准含义” , 因为它的能力就是基于这一假设的 。
因此 , 如果我们在这里主要看到的是第 1 种情况 , 那么这个演示就并不能像作者想的那样展示小样本学习的意义 。
如果是第 2 种情况 , 那么小样本提示确实很重要:它们在可能的形式系统的大空间中“定位了符号的含义” 。 但是这种情况太疯狂了:它意味着语言模型获得了更加一般化的智力 , 这可不是什么小事情 。
我不觉得作者的目的是要证明这一点 。 如果他们认为语言模型是通用的推理机 , 为什么不强调这一点呢?人们已经充分探索过 transformer 的抽象推理能力 , 并且没理由认为非常大型的特定于语言的模型可以发展出强大的通用推理能力 。 (当然了 , 也可以认为这种能力是作者的方法没能检测出来的文本识别 / 记忆能力的某种变体 。 )
我觉得作者应该是把任务分解为“知道如何做”和“知道我们现在正在做”两个部分 。 用文本训练模型可以告诉它如何做(真实的)算术 , 而小样本提示会告诉模型“现在我们正在做(真实的)算术 , 不是你学会的其他那些内容” 。


推荐阅读