方向|十年育林,百度NLP已枝繁叶茂( 三 )


方向|十年育林,百度NLP已枝繁叶茂
文章图片

这些突破的取得 , 都离不开百度在相关方向上的前瞻布局和持续投入 。
多模态语义理解
多模态语义理解是解决复杂场景智能化应用的关键技术 , 近年来备受关注 。
2010 年左右 , 科技产业处在迅速的变化之中 , 人们对信息媒介的需求已不仅仅局限于文字 , 而是向语音、图像等多个方向扩展 。 于是 , 几乎在成立 NLP 部门的同一时期 , 王海峰就已开始着手布局语音技术和视觉技术 , 牵头组建了当时的“多媒体部” 。
这一决定是非常具有前瞻性的 。 因为当时 , 除了与搜索强相关的 NLP 业务 , 早期百度并没有太多相关的智能技术需求 。 在多媒体部成立的初期 , 很多人也不知道这些技术有什么用 。
凭借在语音、视觉、语言与知识等领域多年的技术积累与融合 , 2018 年百度发布了以 “多模态深度语义理解” 为核心的百度大脑 3.0 。 百度大脑是百度 AI 核心技术引擎 , 包括视觉、语音、自然语言处理、知识图谱、深度学习等 AI 核心技术和 AI 开放平台 。 如今 , 百度大脑已经向所有开发者开放了 260 多项 AI 能力 , 其中包括机器同传、拍照翻译、文档解析、图文审核、视频分类、对话情绪识别、图文转视频等融合文本与语音、视觉技术的能力 。
今年 , 百度在多模态语义理解上取得新突破 , 提出了知识增强的视觉 - 语言预训练模型 ERNIE-ViL。 ERNIE-ViL 首次将场景图知识融入多模态预训练, 刷新了 5 项多模态任务纪录 , 并登顶权威榜单 VCR 。
除了这些之外 , 近年来 , 百度 NLP 还在语义计算、阅读理解、多轮对话、机器翻译、开放平台与数据等方向取得了突破性进展 , 并实现了大规模产业化应用 。
对比百度所取得的 NLP 技术成果和 ACL 十年来的研究趋势 , 我们可以发现 , 这家公司对于 NLP 研究趋势的把握是非常精准的 , 而这些都得益于王海峰等领军人物对该领域的长期洞察 。
正如非洲经济学家 Dambisa Moyo 在一本书里所提到的 , “种一棵树 , 最好的时间是十年前 , 其次是现在” 。 在 NLP 领域 , 百度既没有错过十年前的黄金 “种植期” , 也没有在十年的每一个“现在” 里松懈 。 尊重技术的发展规律 , 敏锐把握产业需求变迁 , 持续、坚定的投入 , 百度当年种下的一棵棵 NLP“小树”已经长成一片树林 , 而且还在不断生长出新的树苗 。
在王海峰、吴华等研究者的带领下 , 我们有理由期待百度 NLP 的下一个十年 。
参考资料:《AI已来:让中国AI走向世界的王海峰》
本 文为机器之心原创 ,转载请联系本公众号获得授权。
投稿或寻求报道: content @jiqizhixin.com


推荐阅读