BERT|常识知识确能被捕获,西湖大学博士探究BERT如何做常识问答
选自arXiv
作者:Leyang Cui等
编辑:小舟、杜伟
BERT 是通过常识知识来解决常识任务的吗?

文章图片
预训练上下文化语言模型(例如 BERT)的成功激发了研究人员探索此类模型中的语言知识,以解释下游任务的巨大改进。尽管先前的研究工作展示了 BERT 中的句法、语义和词义知识,但在研究 BERT 如何解决常识问答(CommonsenseQA)任务方面做的工作还很少。
尤其是,BERT 是依靠浅层句法模式还是较深层常识知识来消除歧义是一个有趣的研究课题。
近日,来自西湖大学、复旦大学和微软亚洲研究院的研究者提出了两种基于注意力的方法来分析 BERT 内部的常识知识,以及这些知识对模型预测的贡献。论文一作 Leyang Cui 为西湖大学文本智能实验室(Text Intelligence Lab)的在读博士生。
该研究发现,注意力头(attention head)成功捕获了以 ConceptNet 编码的结构化常识知识,从而对 BERT 直接解决常识任务提供帮助。此外,微调进一步使 BERT 学习在更高层次上使用常识知识。

文章图片
论文地址:https://arxiv.org/pdf/2008.03945.pdf
任务和模型
在讲解 BERT 的应用之前,研究者首先简要介绍了 CommonsenseQA 的相关知识。
CommonsenseQA
CommonsenseQA(Talmor 等人,2019 年)是一个基于 ConceptNet 知识图谱(Speer 等人,2017 年)构建的多项选择问答数据集,它由关系对的大规模三元集合,即源概念、关系和目标概念组成,「鸟、栖息和乡村」就是一个典型示例。
如下图 2 所示,给定源概念「鸟」和关系类型「栖息」,则存在 3 个目标概念「笼子」、「窗台」和「乡村」。在 CommonsenseQA 数据集的开发过程中,要求参与者分别基于源概念和 3 个目标概念来生成问题和候选答案。

文章图片
图 2:从 ConceptNet 到 CommonsenseQA。
基于 Talmor 等人(2019 年)的研究,研究者将问题中的源概念称为问题概念(question concept),将答案中的目标概念称为答案概念(answer concept)。
为了使任务更加困难,研究者还添加了两个不正确的答案。研究者将 commonsene 链接定义为从答案概念到问题概念的链接。
此外,为了分析基于从答案概念到问题概念的链接的隐式结构常识知识,研究者选择过滤掉了一些问题,并且过滤掉的这些问题不包含 ConceptNet 形式的问题概念(如释义)。
下表 1 汇总了数据集 CommonsenseQA 和 CommonsenseQA * 的详细数据:

文章图片
将 BERT 应用于 CommonsenseQA
研究者采用 Talmor 等人在 2019 年提出的方法,在 CommonsenseQA 上使用 BERT(Devlin 等人,2019 年)。结构如下图 3 所示:

文章图片
具体来说,给定一个问题 q 以及 5 个候选答案(a_1, ..., a+5),研究者将这个问题与每个答案连接起来,以分别获得 5 个链接序列(即句子)s_1, ..., s_5。在表示上,每个句子的开头使用特殊符号 [CLS],问题和候选答案之间使用符号 [SEP],句子末尾使用符号 [SEP]。
BERT 由 L 个 stacked Transformer 层(Vaswani 等人,2017 年)组成,以对每个句子进行编码。所以,[CLS] token 最后一层的隐状态用于带有 softmax 的线性分类,并且 s_1, ... , s_5 中得分最高的候选对象被选为预测答案。
分析方法
该研究使用注意力权重和相应的归因得分(attribution score)来分析常识链接。
注意力权重
给定一个句子,我们可以将 Transformer 中的注意力权重视为生成下一层表示过程中,每个 token 与其他 token 之间的相对重要性权重(Kovaleva 等人,2019 年;Vashishth 等人,2020 年)。
注意力权重α通过 Q = W^QH 中查询向量和 K = W^KH 中核心向量的缩放点积(scaled dot-product)来计算,然后得到 softmax 归一化:
归因得分
Kobayashi 等人指出,仅分析注意力权重可能不足以调查注意头的行为,因为注意力权重忽略了隐藏向量 H 的值。
作为注意力权重的补充,已经研究了基于梯度的特征归因方法来解释反向传播中每个输入特征对模型预测的贡献。对注意力权重和相应的归因得分的分析有助于更全面地理解 BERT 中的常识链接。
研究者使用一种名为集成梯度(Integrated Gradient,Sundararajan 等人 2017 年提出)的归因方法来解释 BERT 中的常识链接。直观地讲,集成梯度方法模拟剪枝特定注意力头的过程(从初始注意力权重α到零向量α'),并计算反向传播中的集成梯度值。
归因得分直接反映出了注意力权重的变化会对模型输出造成多大程度的改变。通常来说,归因得分越高表示单个注意力权重越重要。
推荐阅读
- 急救|急救教育不能光讲知识 还要培养现场应对能力
- 学全运|学全运知识 展学生风采
- 神经元细胞|这知识它不进脑子呀——记忆都去哪儿了?
- 知识科普|你在英国读的大学相当于国内哪所大学?最新QS排名对比!
- 知识科普|MBA可以为你做什么
- 知识科普|个人如何运营快递柜?
- 卫生防疫机构|希腊向移民宣传防疫知识 多种语言播报抗疫信息
- 知识科普|最新2020年开设服装表演模特专业的本科院校有哪些
- 知识科普|高集成|赛尔倾斜相机升级之路——更小.更轻.更精
- 诈骗|净网2020 开学了!这些“防诈骗”知识也不能落下
