百度王海峰:语言智能的发展将推动人工智能技术加快落地( 五 )

自监督学习让基于大规模无标记语料的语言模型得到了长足的发展 。 近期 , Google、百度分别提出了无监督文本的预训练语言模型BERT、ERNIE , 将NLP任务的性能提升到新高度 。 百度提出的基于知识增强的ERNIE 模型 , 通过建模海量数据中的实体概念等先验语义知识 , 学习真实世界的语义关系 。 相较于Google BERT基于字单元的语义建模 , ERNIE直接对先验语义知识单元进行建模 , 并通过海量文本数据学习实体间的语义关系 。 这种融合知识的语义建模大幅增强了模型语义表示能力 , 在包括语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然语言处理各类任务上的多个公开中文数据集上 , ERNIE均取得了优于BERT的效果 。

依托深度学习技术的发展 , 语音、图像等感知技术取得了巨大进步 , 但认知技术的突破 , 会越来越依赖知识 , 需要提升对知识和大规模知识图谱的运用 。 在物理世界、人类社会和网络空间中 , 汇聚了大量的多元、异构、多模态的数据 , 百度借助无标签大数据开放域知识挖掘、知识体系自动扩展、知识整合等技术 , 基于海量数据构建起了超大规模知识图谱 。 目前 , 百度拥有世界上最大的多元异构知识图谱 , 除了包含数亿实体、千亿级事实 , 能够满足90%用户需求的实体图谱 , 针


推荐阅读