钛媒体更新、挑错、识别假新闻,MIT推出维基百科AI编辑系统( 二 )


扩充数据集 , 消除误差该研究还表明 , 当训练 “假新闻” 的检测器时 , 该系统可用于增强数据集 , 以消除偏见 。
“假新闻” 是一种包含虚假信息的宣传方式 , 旨在博人眼球 , 误导读者或是引导公众舆论 。 这些部分检测器在同意 - 不同意对的数据集上进行训练 , 匹配给定的证据来验证真假新闻 。 在这些句子对中 , 声明可将某些信息与维基百科上的支持 “证据” 相比较 , 模型经过训练 , 通过反驳证据 , 将句子标记为 “假” , 从而帮助识别假新闻 。
但数据集往往带有意想不到的偏差 。 Shah 说道 , “在训练过程中 , 模型按照人类的书面语言要求将某些语言标记为假例 , 而不必过多依赖相应的证据语句 。 这会降低模型在评估实际示例中的准确性 , 因为它不执行事实检查 。 ”
因此 , 研究人员使用了相同删除和融合技术 , 来平衡数据集中的不同意对 , 并帮助减轻偏见 , 在某些 “不同意” 对中 , 他们使用修改后的句子中的虚假信息来重新生成伪造的 “证据” 支持句子 , 某些短句也同时存在于 “同意” 和 “不同意” 句子中 , 这将使得模型分析更多的特征 , 得到扩充的数据集 。
研究人员利用这一方法将一种流行的假新闻检测器的错误率降低了 13% 。
维基百科部署 AI 编辑早在 2015 年 , 维基百科就构建了一个人工智能引擎 , 旨在自动分析维基百科的更改 。
由于任何人都可以编辑维基百科 , 那么任何人都可以错误地添加虚假信息 , 破坏站点 , 所以最早的维基百科建立了严格的筛选制度 , 阻止了很多人加入维基百科的编辑行列 。
Halfaker 是维基百科的资深研究科学家 , 他建立了自己的 AI 引擎来识别这种破坏行为 , 以更友好的方式提高新手的参与度 。 同时他也承认 , “这项服务无法捕获所有破坏行为 , 但它可以捕获最多的破坏 。 ”
Halfaker 的项目实际上是为了增加人们对维基百科的参与 , 而放到 5 年后的今天 , 新的文本系统的出现 , 可自动更新维基百科的信息 , 极大减少了志愿编辑者的工作 , 编辑者也朝着被淘汰的方向行走 。
机器越来越智能 , 机器自动化替代人类工作也越来越普遍 , 人类是否会被机器替代也是当下的热点话题 。 有人预测 AI 和机器人技术将在未来 20 年内取代我们多达 47% 的工作 , 但同时也有人认为 AI 将创造大量新工作 。
未来的事谁都说不准 , 我们唯一能做的是把握当下 。
【钛媒体更新、挑错、识别假新闻,MIT推出维基百科AI编辑系统】资料来源:[1]https://www.siliconrepublic.com/machines/wikipedia-editors-ai-fake-news[2] https://www.sciencedaily.com/releases/2020/02/200212164647.htm[3]https://www.wired.com/2015/12/wikipedia-is-using-ai-to-expand-the-ranks-of-human-editors/


推荐阅读