钛媒体更新、挑错、识别假新闻,MIT推出维基百科AI编辑系统


钛媒体更新、挑错、识别假新闻,MIT推出维基百科AI编辑系统
本文插图
文丨学术头条
维基百科作为任何人都可以编辑的在线百科全书 , 需要大量的志愿者编辑花费大量时间精力来让每一个词条保持最新 。 虽然志愿者编辑有很多 , 但要保障每天成千上万的页面及时更新 , 仍是一件极具挑战的任务 。
不久前 , 麻省理工学院的研究人员推出了一种新的 AI 系统 , 该系统可用于自动更新在线百科全书中的任何不准确之处 , 从而为人类编辑们提供帮助 。
麻省理工学院计算机科学和 AI 实验的博士生 Darsh Shah 说道 , “维基百科的文章需要不断更新 , 因此需要数百人来修改每篇文章 , 而 AI 可以自动完成修改 , 这极大提高了效率 。 ”
研究人员提出了一种文本系统 , 该系统可精确定位并替换相关维基百科句子中的特定信息 , 同时使用类似于人类的书写和编辑方式的语言 。
当人们在界面输入带有更新信息的非结构化句子时 , AI 会在维基百科中搜索正确的页面和过时的信息 , 然后以类似于人类的语言风格呈现内容 。
此前也存在许多其他可以自动进行维基百科编辑的机器人 , 但 Shah 说道 , “这些工具更多的是基于规则 , 将一些狭义的信息放入预定义的模版中 , 然而编辑的任务更多的是需要对两个句子中相互矛盾的部分进行推理 , 然后生成连贯的文本句子 。 研究人员的模型解决了这个问题 , 通过输入一条非结构化的信息 , 模型以人性化的方式自动修改句子 。 ”
AI 识别矛盾信息识别两个单独的句子之间的矛盾信息 , 并将它们融合在一起 , 这对于人类而言是一项十分容易的任务 , 但对于机器学习而言却是一项新颖的任务 。
例如原始的句子:“基金 A 认为活跃运营公司中的 42 种少数股权中有 28 种对集团特别重要” , 而最新的信息则是:“基金 A 认为 43 个少数股权中有 23 个意义重大” 。
根据这两个句子 , 系统将首先找到有关 “基金 A” 的相关维基百科文本 , 然而自动去除过时的数字 28 和 42 , 并用新的数字 23 和 43 替换它们 。
钛媒体更新、挑错、识别假新闻,MIT推出维基百科AI编辑系统
本文插图
一般来说 , 该系统在包含句子对的流行数据集上进行训练 , 其中一个句子是声明 , 另一个是相关的维基百科的句子 。 每对都用三种方式进行标记:同意 , 表示句子匹配;不同意 , 表示存在矛盾的信息;中性 , 表示没有足够的信息可用于任何一个标签 。
系统的目标是修改所有过时的句子 , 达到相应的要求 , 也要使所有不一致的句子对都达到 “同意” 。 因此 , 这就需要使用单独的模型来产生所需的输出 。
该模型是事实检查分类器 , 预先将每个句子对标记为 “同意”、“不同意” 或 “中立” , 重点关注 “不同意” 的句子对 。 与分类器一起运行的是一个自定义的 “中性屏蔽器” 模块 , 该模块可识别过时句子中的哪些词与声明中的句子相矛盾 。 它在过时的句子上创建了一个二进制 “掩码” , 其中 0 放在最有可能需要删除的单词上 , 而 1 放在保留的单词上 。
屏蔽之后 , 在过时的句子处使用两个编码器 - 解码器框架 , 对需要删除的单词(用 0 覆盖的单词)结合不同的信息来融合填补 。
该模型与其他几种传统的文本生成方法相比 , 在更新事实信息时更加准确 , 其输出与人类写作更加相似 。 在一项测试中 , 研究人员根据模型的输出句子包含事实更新和匹配人类语法的程度对该模型进行了评分(从 1 到 5) , 该模型的事实更新平均得到达到了 4 , 语法匹配得分为 3.85 , 高于了其他所有传统方法 。
研究人员希望未来 AI 能够自动完成整个过程 , 也就意味着它可以在网上搜索某个相关主题的最新新闻 , 并替换文本 , 自动化更新维基百科上过时的信息 。


推荐阅读