过往年少|百度NLP十年:基于知识增强的语言技术,实现跨模态一体化理解( 二 )
因此 , 百度打造了世界上最大的多源异构知识图谱 , 拥有超过50亿实体和5500亿事实 , 并在不断演进和更新 , 已应用于各行各业 , 每日调用次数超过400亿次 。
不仅如此 , 针对不同应用场景和知识形态 , 百度还建立起多样化的知识图谱类型 , 既有基础的实体知识图谱 , 也有行业知识图谱、事件图谱、关注点图谱等 , 以及融合语音、视频、图片的多模态知识图谱 。 这背后 , 是百度创建的包括无标签大数据开放知识挖掘技术、知识体系自扩展的知识图谱自学习技术、以及融合多源异构数据的知识补全与整合技术在内的一整套知识图谱构建方法 。
3 刷新榜单的知识增强框架
除了知识图谱之外 , 语言理解能力还需不断增强 。 2019年3月 , 百度提出知识增强的语义理解框架ERNIE , 它在深度学习的基础上融入知识 , 同时具备持续学习能力 , 曾一举登顶全球权威数据集GLUE榜单 , 首次突破90分大关 , 刷新榜单历史 。 基于知识图谱和语义表示 , 突破了阅读理解、对话理解以及跨模态深度语义理解等技术 。 而通过融入知识、语义理解、以及增强小样本学习能力 , 机器的阅读理解和对话能力也在迅速增强 。
和人类认知世界的形式类似 , 机器认知世界时 , 也不仅是运用自然语言 , 而往往是对语音、视觉、语音等多模态信息的综合应用 。 为此 , 百度研制了知识增强的跨模态深度语义理解方法 , 通过知识关联跨模态信息 , 运用语言描述不同模态信息的语义 , 进而让机器实现从“看清”到“看懂”、从“听清”到“听懂” , 即图像和语言、语音和语言的一体化理解 。 而融合场景图知识的跨模态语义理解预训练技术 , 则大幅提升了跨模态推理能力 。
在机器理解自然语言之外 , 要与人进行交互 , 语言生成的任务也必不可少 。 基于预训练技术的成功经验 , 百度提出基于多流机制的语言生成预训练技术 , 兼顾词、短语等不同粒度的语义信息 , 显著提升生成效果 。 百度也探索了多文档摘要生成 , 通过图结构语义表示引入篇章知识 , 在单文档和多文档摘要生成效果都有提升 。
而多文档摘要生成 , 则通过图结构语义表示 , 引入篇章结构知识 , 增强长文本语义表示能力的同时 , 解决了跨文档领域关系建模难题 。 结合语言生成技术和其他语言与知识技术 , 百度打造了智能创作平台 , 已被20多家媒4体所采用 , 日调用量超过35万次 。
成绩卓著的对话系统和机器翻译在应用系统层面 , 百度的对话系统和机器翻译等成绩同样卓著 。 百度提出了知识图谱驱动的对话控制技术 , 以及首个基于隐空间的大规模开放域对话模型PLATO以及PLATO-2(以下两图) 。 在机器翻译方面 , 百度翻译支持200多种语言 , 每天响应超过千亿字符的翻译请求 , 支持超过40多万家第三方应用 , 技术上 , 提出了多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等 。
智能对话定制和服务平台UNIT
百度同时推出智能对话定制和服务平台UNIT , 帮助开发者高效构建智能对话系统 , 实现规模化应用 。 百度翻译支持200多种语言 , 每天响应超过千亿字符的翻译请求 , 支持超过40多万家第三方应用 , 技术上 , 提出了多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等 。
推荐阅读
- 芒种风向标|赵楠全创作EP新歌《或》是伤感诉说爱情过往?
- LOL|宁王人物志,谁能想到年少轻狂的他最后能成就传奇?他的故事还在继续
- 百度联盟陈一凡:小程序之间的竞争主要体现在场景上
- 价值资讯观察|股价大跌!百度将在美遭遇集体诉讼
- 腾讯微博|既然网盘生意那么烧钱,为什么阿里迅雷还要和百度网盘抢饭碗?
- 上海市宝山区人民政府网站|2020学年少儿住院医疗互助基金开始办证啦!
- 过往年少|是打向PPT企业的响亮耳光,华为的“惨”状
- 掌上新闻|似因年少成名,网友:关晓彤也没你这么任性啊,郑爽首谈任性原因
- 过往年少|华为的“惨”状,是打向PPT企业的响亮耳光
- nba|伊巴卡:过往让我们知道系列赛在真正结束前都不算结束
