从Bengio演讲发散开来：探讨逻辑推理与机器学习(11) 机器之心分析师网络作者：仵冀颖编辑：

析取推理（Disjunctive reasoning）：在这种推理中，前提是析取的，形式是「要么。或者。」，只要一个前提成立，结论就成立。
合取推理（Conjunctive reasoning）：在这类推理中，前提是连词，形式是「两个。还有。」，只有当所有前提成立时，结论才成立。
如下，表 1 总结了 LogiQA 的详细统计数据。
文章插图
表 1. LogiQA 的统计数据
LogiQA 基准测试集由 867 个段落问题对组成。作者根据 Hurley 定义的逻辑推理的五种类型对实例进行人工分类[9] ，包括范畴推理、充分条件推理、必要条件推理、析取推理和合取推理。这些推理属于演绎推理，即给定一套前提条件，能够得出明确的结论。因此，这种推理方法最适合于定量评价性能。图 2 给出了 LogiQA 中推理类型的统计信息和代表性示例。
文章插图
图 2. LogiQA 中每种逻辑推理的例子（红色对勾表示正确答案）
3.1.2 验证的深度学习方法介绍
作者评估了典型的应用于阅读理解任务的各类模型的性能，包括基于规则的方法、深度学习方法以及基于预先训练的上下文嵌入的方法。此外，还对人类直接进行阅读理解的完成情况进行了评估，并报告了最佳性能。
【基于规则的方法】
作者采用了两种基于规则的方法，通过简单的词汇匹配给出答案。单词匹配 [10] 是基于规则的基线方法，它选择与给定段落问题对的单字格重叠程度最高的候选答案。滑动窗口 [11] 通过从给定段落问题对中的 n 个单词中提取 TF-IDF 类型特征来计算每个候选答案的匹配分数。
【深度学习方法】
深度学习方法通过文本匹配技术计算给定段落、问题和每个候选答案之间的相似度，从而找到阅读理解的答案。例如，可以使用 LSTM 编码和双线性注意力函数计算段落问题对和候选答案之间的相似性。门控注意力阅读器采用多跳结构，具有更细粒度的机制来匹配候选答案与段落问题对。协同匹配网络通过对每段文本进行编码并计算每对文本之间的匹配分数，进一步提升段落 - 问题对和段落 - 候选答案对的匹配效果。
【预训练方法】
与深度学习方法不同，预训练方法将段落、问题和每个候选答案视为一个连接句子，使用预先训练的上下文嵌入模型对句子进行编码以计算其得分。给出四个候选答案，将每个候选答案与段落和问题配对，然后构造四个连接句子，并选择模型得分最高的一个作为答案。这一类方法包括 BERT、RoBERTa 等。
【人工方法】
本文研究团队雇佣了三名研究生进行人工方法的评估，并给出了从测试集中随机选取的 500 个样本的平均分数。在计算最优性能时，如果其中一个学生给出了正确的答案，就认为人工方法针对这个问题能够给出正确答案。
3.1.3 实验分析
随机分割数据集，将其中的 80% 用于训练， 10% 用于开发，其余 10% 用于测试。表 2 给出了节 3.1.2 中所讨论的模型的结果。人工方法的测试结果达到了 86.00% ，最高的结果达到 95.00% ，这说明对于人类测试者而言， LogiQA 的难度并不大。相比之下，其它所有算法模型的性能都比人类差得多，这表明这些方法在逻辑推理阅读理解方面相对较弱。此外，中文数据集的结果与英文数据集的结果处于同一水平。
两种基于规则的方法的准确率分别为 28.37% 和 22.51% ，后者甚至低于随机猜测的基线水平。这说明单靠词汇匹配很难解决 LogiQA 中的这些问题。深度学习方法的准确率在 30% 左右，效果要优于随机猜测的方法，但远远落后于人类的表现。一个可能的原因是这些方法都是经过端到端的训练，结果发现基于注意力的文本匹配很难学习潜在的逻辑推理规则。预先训练的模型具有一定的常识性和逻辑能力，与没有上下文嵌入的方法相比，这种模型具有更好的性能。然而， RoBERTa 的最佳结果是 35.31% ，仍然远远低于人类的表现。这表明预先训练的模型中的知识对于逻辑推理来说是相当薄弱的。

从Bengio演讲发散开来：探讨逻辑推理与机器学习(11)

推荐阅读

新配色 Navy Blue ? navy是什么颜色

遊戏动漫大全|手雷燃烧瓶还缺啥？王小歪AWM闪身狙，和平精英三大攻楼神器

「挖贝网」燃煤价格同比下降，穗恒运Ａ2020年一季度盈利4.14亿增长420%

网易娱乐|Yamy曝光公司会议录音被老板公开羞辱言语恶劣

【栈外】第三方Cookie的消失对广告商来说意味着什么？

巴塞罗那|皇马2-1黄潜夺冠！詹俊曝内情，梅西感言意味深长，谁注意齐达内举动

炸鸡块怎么做好吃又简单窍门,炸好的鸡块的做法大全-

山西运城铁路警方:“清剿2号”将打击倒票推向深入

青年|王者荣耀：李信世冠特效削弱，25个BUG修复，阿古朵上架准备就绪！

长月烬明|《长月烬明》拿下月榜第5，比起男女主颜值，我更关心这3样！

[利刃军事]应集体染病以获得“群体免疫”，美国专家：中国周边的美军不能隔离

IT之家■Win10 Mobile 为何放弃安卓子系统？真相了，四年前

角斗士2|春节电影陷争议！《满江红》疑抄袭，《乒乓》撤档《无名》口碑差

精密五金加工注意事项有哪些

扬子晚报|老人突发低血糖摔破头民警及时送医救助

音乐是自己|4种食物不能省，改善气色，气血通畅，补充维生素，女性不想变老

如何解决黑衣服掉色黑衣服掉色

苹果手机感谢iPhone11，华为Mate30 4G版彻底跌至荣耀价，纠结了

喝山楂荷叶茶能不能减肥,孕妇能喝菊花茶吗

装修刘哥|就明白了！（好文），活着活着