BERT|常识知识确能被捕获,西湖大学博士探究BERT如何做常识问答( 二 )


BERT 是否包含结构化常识知识?
研究者首先进行了一组实验来探究常识链接权重,从而可以反映出常识知识是否会被句子的 BERT 表示捕获。
直观地讲,如果答案概念到问题概念的链接权重高于答案概念到其他疑问词的链接权重,则 ConceptNet 中的常识知识是通过经验表示捕获的。
值得注意的是,[CLS] token 的表示不是问题概念,而是直接连接至输出层以进行候选评分。因此,在预训练和微调阶段,对于输出层以及答案概念 token 到问题概念 token 的链接权重,都没有直接的监督信号。
探测任务(probing task)
研究者通过计算最相关的词(most associated word, MAW)来评估链接权重,其中 MAW 是从所有疑问词中的答案概念中获得最大链接权重的问题概念词。研究者计算了每层中每个注意力头的 MAW。
【 BERT|常识知识确能被捕获,西湖大学博士探究BERT如何做常识问答】实验结果
下表 2 展示了对于不同的常识关系,原始归一化 BERT 和在 CommonsenseQA 上微调的 BERT 模型的平均和最大准确率结果:
 BERT|常识知识确能被捕获,西湖大学博士探究BERT如何做常识问答
文章图片

首先观察未经微调的原始 BERT,每一层的最大 MAW 准确率明显优于随机基准。这表明 BERT 确实捕获了常识知识。此外,BERT 的平均 MAW 也明显优于随机基准(p 值 < 0.01),这表明相关的问题概念无需微调即可在 BERT 编码中发挥非常重要的作用。
其次,就平均 MAW 准确率和最大 MAW 准确率而言,BERT-FT 均优于 BERT。这表明对常识任务的监督训练可以增强结构化的常识知识。
BERT 如何将常识知识用于常识任务?
研究者进一步进行了一组实验,来描述常识链接与模型预测之间的相关性。目的是为了研究不同候选答案概念到问题概念的链接权重是否会对这些候选答案之间的模型决策造成影响。
具体而言,研究者比较了 5 个候选答案对于同一问题的链接权重,并找出了与相关问题概念最相关的候选答案。这个候选答案被称为最相关候选对象(most associated candidate, MAC)。MAC 和每个问题的模型预测之间也存在着相关性。直观地讲,如果 MAC 与模型预测呈现相关性,则证明模型在预测过程中运用到了常识知识。
研究者进行实验来评估 MAC 对模型决策的贡献,以及 MAC 依赖与输出准确率之间的相关性。实验中使用注意力权重和归因得分来测量链接,这是因为在考虑模型预测时梯度会发挥作用。
此外,对于所有试验来说,归因得分的趋势与使用注意力权重测量的结果保持一致。
探测任务
从形式上,给定一个问题 q 和 5 个候选答案 a1, ..., a5,研究者对相应的 5 个候选句子 s1, ..., s5 进行比较。在每个候选句子中,研究者根据 ConceptNet 计算了答案概念到问题概念的链接权重。
研究者通过测量答案概念到 [CLS]token 的链接权重,进一步定义了最相关句子(most associated sentence, MAS)。这是因为梯度是从 [CLS]token 后向传播,而不是从问题概念或答案概念。
此外,通过比较 MAC 和 MAS,研究者可以获得 MAC 是否对模型决策造成影响的有用信息。
常识链接的重要性
研究者测量了 BERT-FT 和 BERT-Probing(这是一个仅针对输出层进行微调的 BERT 变体)的 MAC 性能,其中 BERT-Probing 是一个线性探测(linear probing)模型。直观地讲,如果线性分类器可以预测常识任务,则未经微调的原始模型可能会编码丰富的常识知识。
下表 3 为 top Transformer 层中 12 个注意力头条件下,MAC 和 MAS 的重叠率(overlapping rate):
 BERT|常识知识确能被捕获,西湖大学博士探究BERT如何做常识问答
文章图片

常识链接与模型预测之间的相关性
为了进一步探究常识知识对模型预测的贡献,下图 4 展示了每个 Transformer 层上 MAC 和模型预测之间的重叠率:
 BERT|常识知识确能被捕获,西湖大学博士探究BERT如何做常识问答
文章图片

下表 4 则展示了 MAC 准确率和预测准确率之间的相关性:
 BERT|常识知识确能被捕获,西湖大学博士探究BERT如何做常识问答
文章图片

不同层的贡献
最后,研究者进一步探究了常识知识使用上的两个具体问题。其一,在决策过程中,BERT 最依赖哪个层?其二,BERT 使用的常识知识来自预训练或微调吗?为此,研究者通过连接每个 Transformer 层上的输出层,对 12 个模型变体进行了比较。
下表 5 展示了模型准确率和 MAC 重叠率的数据:
 BERT|常识知识确能被捕获,西湖大学博士探究BERT如何做常识问答
文章图片

【来源:达达教育】
声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 邮箱地址:newmedia@xxcb.cn


推荐阅读