AI“黑箱”被打开?谷歌找到大模型能力涌现机制( 二 )


文章插图
事实上,使用语义无关的标签会导致小型模型的性能大幅下降 。
这表明较小的模型主要依赖于它们在上下文中的语义先验,而不是从提供的输入标签映射中学习 。
另一方面,当标签的语义特性被移除时,大型模型具有在上下文中学习输入标签映射的能力 。
此外,研究人员还发现,包含更多的上下文范例对大型模型的性能改善,比对小型模型的性能改善更大 。
显然,大型模型比小型模型更善于从上下文范例中学习 。

AI“黑箱”被打开?谷歌找到大模型能力涌现机制

文章插图
指令调优模型如何?
当前,指令调优是提高模型性能比较流行的一种方法 。
这两者都将导致标准上下文任务性能的提高 。
研究人员继续通过与前面相同的两个设置来研究这个问题,只是这一次将重点放在比较标准语言模型(特别是 PaLM)和它们的指令调优变体(Flan-PaLM)上 。
首先,当使用语义不相关的标签时,Flan-PalM比PalM性能更好 。
这种效应在小型模型中非常显著,因为Flan-PalM-8B的性能比PaLM-8B高9.6%,几乎赶上了PaLM-62B 。
这种趋势表明,指令调优加强了学习输入标签映射的能力,但这并不是令人惊讶的发现 。
更有趣的是,研究者还发现Flan-PalM在遵循翻转标签上比PalM更差,这意味着指令调优模型无法覆盖它们的先验知识 。
在100%翻转标签的情况下,Flan-PaLM模型无法做到随机猜测,但是在相同的设置下,没有进行指令调优的PaLM模型可以达到31%的准确率
这些结果表明,指令调优必须增加模型在语义先验可用时的依赖程度 。
结合前面的研究结果,研究者得出结论:虽然指令调优提高了学习输入-标签映射的能力,但它更强化了语义先验知识的使用 。
谷歌这篇论文强调了语言模型的ICL行为如何根据其参数而改变,并且更大的语言模型具有将输入映射到许多类型的标签的涌现能力 。
这是一种推理形式,其中输入-标签映射可以潜在地学习任意符号 。
未来,更进一步的研究可以帮助人们去了解为什么这些现象会与模型参数相关 。
参考资料:
https://ai.googleblog.com/2023/05/larger-language-models-do-in-context.html

【AI“黑箱”被打开?谷歌找到大模型能力涌现机制】


推荐阅读