过往年少|百度NLP十年:基于知识增强的语言技术,实现跨模态一体化理解


过往年少|百度NLP十年:基于知识增强的语言技术,实现跨模态一体化理解作者 | 陈大鑫
编辑 | 青 暮
自然语言理解(NLP)素有“人工智能皇冠上的明珠”盛誉 , 这也意味着语言与知识等认知层面的技术突破将进一步促进AI深入发展 。
那么 , 十年足以使得NLP领域产生什么样的变化?
ACL首任华人主席、百度CTO王海峰认为 , 过去的十年是NLP技术进步和产业发展交织并进的十年 。 在8月25日举行的百度大脑语言与知识技术峰会上 , 王海峰表示 , “在百度语言与知识技术的布局和发展中 , 我们始终在注意把握两个趋势 , 即技术发展趋势和产业发展趋势 , 并力争引领趋势 。 ”
从王海峰在演讲中提及的《机器翻译浅说》(1964年 , 中国NLP领域的先行者刘涌泉、刘倬、高祖舜合作出版)一书算起 , 中国的自然语言处理研究已经经历了半个多世纪的发展和演变 。 从最初在机器翻译领域摸石头过河、到80年代初计算语言学与自然语言处理的萌芽、90年代初中文分词方法和理论的建立以及21世纪初的与国际研究接轨 , 中国的NLP研究在近十年开始加速 , 也进入了一个前所未有的繁荣时代 。
正如大卫·米切尔在他的第三部小说《云图》中所说:历史是一副牌 , 我们的祖辈那代拿到的是3、4、5 , 而我们这一代人拿到的是10、J和Q 。 虽然今天的NLP研究者们仍然在吐槽“NLP太难了” , 但毫无疑问 , 站在前人的肩膀上 , 我们离摘下皇冠上的明珠又近了一步 。
王海峰还为我们全面分享了百度近十年来在语言与知识技术上积累的成果 。 十年前 , 百度NLP事业部成立 , 作为国内最早设立NLP研发部门、最早参与NLP学术顶会的企业 , 百度NLP事业部在技术和产品两条线上的创新和落地应用 , 正是这十年NLP领域发展的一个缩影 。 百度在这个时点召开“百度大脑语言与知识技术峰会” , 正是在表达这样一个信息:
NLP已经进入了技术和产业结合的快车道 。
1十年一剑 , 网友直呼内行【过往年少|百度NLP十年:基于知识增强的语言技术,实现跨模态一体化理解】从2010年的百度搜索业务上的应用起步 , 经过了十余年的发展 , 百度已经构建了完整的语言与知识技术布局 , 包括知识图谱、语言理解与生成技术 , 以及上述技术所支持的包含智能搜索、机器翻译、对话系统、智能写作、深度问答等在内的的应用系统 。 从展示中也可以看到 , 在百度知心输入法、图片搜索、小度机器人、度秘、智能客服、数字员工等明星产品背后 , 百度语言与知识技术也经历了与时俱进的演变:

  • 首先在研究方法上 , 百度语言与知识的研究方法从最早的基于规则的学习到机器学习 , 再到基于神经网络的深度学习最后到现在基于知识增强的深度学习;
  • 第二是研究对象 , 百度语言与知识的研究对象从最开始的词、短语、句子、篇章发展到了现在的包含语音、视觉以及语言的跨模态一体化 。
  • 第三是研究方向 , 百度语言与知识的研究方向到目前为止已经横跨了语言分析、语言生成、知识图谱、机器翻译以及深度语义理解等方方面面 。

过往年少|百度NLP十年:基于知识增强的语言技术,实现跨模态一体化理解这一口气亮出如此密集的语言与知识技术 , 在展示了百度NLP十年完整的技术积累同时 , 也让观看直播的网友惊呼:有内味了 。
2 全球最大知识图谱
过往年少|百度NLP十年:基于知识增强的语言技术,实现跨模态一体化理解在整个百度语言与知识技术体系中 , 知识图谱处于底层位置 。 知识图谱包含概念图谱、实体图谱等不同类型的图谱 , 以及知识挖掘、知识归一融合、知识推理计算等一整套知识相关的技术和平台 。 正如王海峰所说 , 知识图谱是机器认知世界的基础 , 机器认知能力的突破 , 越来越依赖于对知识和大规模知识图谱的应用 。


推荐阅读