百度百度一口气亮出NLP十年积累:完整技术布局全面披露( 二 )


这背后 , 是百度创建的包括无标签大数据开放知识挖掘技术、知识体系自扩展的知识图谱自学习技术、以及融合多元异构数据的知识补全与整合技术在内一整套知识图谱构建方法 。
突破语言理解、语言生成关键技术
有了丰富知识的加持 , 语言理解相关技术的能力就能不断增强 。
比如 , 百度提出可持续学习的知识增强语义理解框架ERNIE , 在深度学习的基础上融入知识 , 具备人类一样的持续学习能力 , 曾一举登顶全球权威数据集GLUE榜单 , 首次突破90分大关 , 并且超越人类得分 。
而通过融入知识、语义理解、以及增强小样本学习能力 , 机器的阅读理解和对话能力也在迅速增强 。
百度百度一口气亮出NLP十年积累:完整技术布局全面披露
本文插图
进而 , 考虑到机器认知世界 , 往往不仅局限于自然语言 , 而是对语音、视觉等多模态信息的综合应用 , 知识增强的跨模态深度语义理解方法也是一大研发重点 。
通过知识关联跨模态信息 , 运用语言描述不同模态信息的语义 , 进而让机器实现从「看清」到「看懂」、从「听清」到「听懂」 , 即图像和语言、语音和语言的一体化理解 。
而融合场景图知识的跨模态语义理解预训练技术 , 则大幅提升了跨模态推理能力 。
百度百度一口气亮出NLP十年积累:完整技术布局全面披露
本文插图
而在机器理解自然语言之外 , 要提升交互体验 , 语言生成任务也必不可少 。
在这方面 , 百度基于多流机制的语言生成预训练技术 , 在语言生成的过程中 , 兼顾词、短语等不同粒度的语义信息 , 提升了生成效果 。
而多文档摘要生成 , 则通过图结构语义表示 , 引入篇章结构知识 , 增强长文本语义表示能力的同时 , 解决了跨文档领域关系建模难题 。
前沿技术落地
正如王海峰所说 , 对于百度而言 , 一方面是紧追技术前沿 , 另一方面是密切关注产业发展 。 因此无论是技术的研发 , 还是对ACL这样的顶会的深度参与 , 其中都有企业发展、技术布局的考量 。
百度百度一口气亮出NLP十年积累:完整技术布局全面披露
本文插图
因此学术上的突破 , 也在不断转化为搜索、翻译、对话系统等各类产品的落地 。
比如百度核心业务搜索 。
王海峰介绍 , 通过知识图谱、语言理解和跨模态语义理解等技术 , 智能搜索帮助用户更加高效、精准、便捷地获取知识和信息 。 智能搜索再进一步发展 , 搜索将无处不在 。
在对话系统方面 , 百度提出了知识图谱驱动的对话控制技术 , 以及首个基于隐空间的大规模开放域对话模型PLATO等 , 并推出智能对话定制和服务平台UNIT , 帮助开发者高效构建智能对话系统 , 实现规模化应用 。

百度百度一口气亮出NLP十年积累:完整技术布局全面披露
本文插图
机器翻译方面 , 基于多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等新技术 , 现在 , 百度翻译能支持200多种语言 , 每天响应超过千亿字符的翻译请求 , 支持超过40多万家第三方应用 。
结合语言生成技术和其他语言与知识技术 , 百度还打造了智能创作平台 , 已被20多家媒体所采用 , 日调用量超过35万次 。
由此也可见百度在语言与知识技术领域开源开放的态度 , 其十年技术成果 , 都在源源不断通过平台化产品对外输出 , 在互联网、金融、医疗、教育等诸多领域发挥作用 。
这样推动整个产业智能化升级的努力 , 亦是近十年来百度语言与知识技术不断进步的最佳证明 。
百度百度一口气亮出NLP十年积累:完整技术布局全面披露


推荐阅读