方向|十年育林,百度NLP已枝繁叶茂( 二 )


吴华博士在人工智能领域浸润 20 余年 , 专注于自然语言处理 。 据统计 , 她在机器翻译及自然语言处理领域授权或公开的专利申请有 100 余项 , 发表学术论文 60 余篇 。
随着技术骨干的加入 , 百度开始在 NLP 领域的国际顶会中崭露头角 。 2010 年 , 王海峰、吴华的一篇论文被 ACL 录用 , 百度也成为参加这个国际顶会的首个中国互联网企业 。
在这之后的十年里 , 百度几乎每年都会在 ACL 上展示最新的研究成果 , 成为这一国际大会的重要参与者 。 同时 , 在王海峰等人的不断努力下 , 中国研究者在 ACL 上的影响力不断扩大 , 开始拥有更多的话语权 。
2013 年 , 王海峰出任 ACL 五十年来首位华人主席 。
【方向|十年育林,百度NLP已枝繁叶茂】在王海峰等人的共同推动下 , 2015 年 , ACL 首次在中国举办 , 体现了国际学界对中国自然语言处理研究的重视和认可 。
方向|十年育林,百度NLP已枝繁叶茂
文章图片

2018 年 , 在第 56 届 ACL 年会开幕式上 , 时任 ACL 主席 Marti Hearst 宣布创建亚太区域分会(AACL)并计划在 2020 年举行首次会议 。 之后每两年举行一次会议 , 会议地点将设置在亚太地区 , 由王海峰担任 AACL 创始主席 。
2020 年 , 百度 11 篇论文被 ACL 收录 , 覆盖了语义表示、情感分析、自动摘要、对话系统、机器翻译、知识推理、AI 辅助临床诊断等诸多热点与前沿研究方向 。 同时 , 百度联合谷歌、Facebook、清华大学等全球顶尖机构共同举办了首届同声传译研讨会 , 就 ERNIE 核心技术、开放域人机对话技术、智慧医疗、生物医药等业内关注的话题做了演讲 , 展现了中国企业在 NLP 及 AI 领域的技术创新与产业实践 。
如果将十年前的百度 NLP 比喻成一片苗圃 , 那么 , 经过十年的浇灌 , 这片苗圃已然成林 。 王海峰等人的贡献在于 , 他们很早就选到了优质的树苗并悉心培育 。
从今年百度被 ACL 接收的论文以及最近公布的研究进展中 , 我们可以看到这种前瞻视野和布局带来的丰硕成果 。
从 ACL、百度看 NLP 十年研究趋势
如果仔细观察近几年的 ACL 接收论文和百度公布的研究成果 , 我们不难发现 NLP 领域的几个研究趋势 , 包括 1)越来越多的研究者将知识融入到 NLP 模型中 , 以提高模型的理解和推理能力;2)多模态语义理解越来越受关注 , 同时在视频网站、电商物流、自动驾驶等领域得到广泛应用……
将知识融入 NLP 模型
语言和知识促进了人类文明的发展 。 人们从大量的数据和信息中获取知识 , 语言是凝炼和传承知识的载体 , 进而又将知识应用于生产生活的方方面面 。 早在十年前 , 王海峰就敏锐地觉察到知识的重要性 , 开始布局知识图谱技术并逐渐加大研发投入 。 百度将多源异构的海量互联网信息汇聚在一起 , 从中挖掘知识、构建大规模图谱 。 而当时 , 知识图谱对于大多数人来说还比较陌生 。
2014 至 2017 年间 , 基于互联网大数据和搜索应用 , 百度知识图谱技术发展非常迅速 。 2016 年 , 百度构建了全球最大的知识图谱 , 拥有数亿实体、数千亿事实 。 2017 年 , 基于知识图谱技术突破和产业化应用 , 百度 “知识图谱技术及应用” 项目获得“中国电子学会科技进步一等奖” 。
此后 , 面向实际应用场景 , 百度系统地拓展了多源异构知识图谱的研发与应用 。 针对不同的应用场景和知识形态 , 构建了关注点图谱、事件图谱、多媒体图谱、行业知识图谱等多种图谱 。 从认知深度、信息宽度和领域广度多维度对实体图谱进行了系统性的拓展和升级 。 在领域广度方面 , 则从通用领域拓展到涵盖医疗、法律等行业在内的具有强知识性的专业领域 。
特别地 , 在医疗领域 , 基于知识图谱技术的辅助医疗决策等产品目前已在全国 300 多家医院、1500 多家基层医疗机构规模化落地应用 。 相关产品荣获 2019 年全国医疗人工智能应用创新奖 。 2019 年 7 月 , 在百度开发者大会上首次发布了“行业知识图谱平台” , 整合知识图谱构建、存储、问答、推理等技术能力 , 为行业知识的获取与应用提供一体化解决方案 。
此外 , 早在 2011 年 , 百度就着手研究基于知识的语言解析 。 2014 年 , 百度研发了基于海量数据训练的神经网络深度语义匹配框架——SimNet 。 该框架率先将语义表示与匹配计算统一在一个端到端的神经网络模型里 , 并结合中文语言特性融合了多粒度知识 , 支持千亿规模真实搜索点击数据训练 。
去年 , 百度先后发布了知识增强的语义表示模型 ERNIE 和持续学习语义理解模型 ERNIE 2.0 。 2019 年 12 月 , ERNIE 在国际权威的通用语言理解评估基准 GLUE 上首次突破 90 大关 , 超越人类三个点 , 获得全球第一 。 今年 3 月 , 在全球最大规模的国际语义评测 SemEval 上 , ERNIE 获得 5 项世界冠军。 在刚刚落下帷幕的世界人工智能大会 , 百度文心(ERNIE)知识增强语义理解技术与平台获得了大会最高荣誉奖项“卓越人工智能引领者”(SAIL)奖 。


推荐阅读