过往年少|百度NLP十年:基于知识增强的语言技术,实现跨模态一体化理解( 三 )


百度大脑语言与知识技术的持续探索和创新取得了令业界瞩目的成绩 , 同时这些技术以平台化的方式输出 , 赋能千行万业 , 持续提升产业智能化水平 。
多款产品的新发布、两大计划
除了对百度大脑语言与知识产品全景图的总结外 , 峰会上还发布了语义理解技术与平台文心、智能文档分析平台TextMind和AI同传会议解决方案3大新产品 , 同时发布了6项升级 , 包括智能创作平台的3个场景方案、以及智能对话定制与服务平台UNIT的3项全新升级 。
过往年少|百度NLP十年:基于知识增强的语言技术,实现跨模态一体化理解在上述产品中 , 尤为引人注意的是语义理解技术与平台文心(ERINE) 。 百度副总裁吴甜表示 , 文心全面降低了 NLP 定制开发成本 , 能减少90%的数据标注量 , 节约90%的算力投入 , 减少85%的模型开发时长 。 相比之下 , 近段时间十分火爆的GPT-3虽然展示出了眼花缭乱的各种强大生成能力 , 但是它的背后是一次训练数周以及数百万美元的巨大成本 , 而文心却可以让开发者更简单、高效地定制企业级NLP模型 。
过往年少|百度NLP十年:基于知识增强的语言技术,实现跨模态一体化理解在减少数据标注量、算力投入、开发时长的同时 , 文心语言与知识深度融合的阅读理解能力也大大提升 。 王海峰现场用如何从一段话中推断出“但使龙城飞将在 , 不在胡马度阴山”一诗的作者为例 , 演示了百度文心系统利用知识作为背景信息融入文本语义表示后的模型推理能力 , 这与网友们利用GPT-3所遇到的各种“翻车”以及Gary Marcus声称的“GPT-3并不能真正理解语义”相比 , 同样也让人有眼前一亮的感觉 。
在吴甜之后 , 百度技术委员会主席吴华还宣布了百度联合中国计算机学会、中国中文信息学会发起中文自然语言处理数据共建计划——千言 , 解决语言与知识技术研发中普遍面临的数据稀疏、算力不足问题 。
过往年少|百度NLP十年:基于知识增强的语言技术,实现跨模态一体化理解千言一期由来自国内11家高校和企业的数据资源研发者共同建设 , 已涵盖开放域对话、阅读理解等7大任务 , 20余个中文开源数据集 , 支持多维度综合评价 。 吴华表示:“未来 , 我们希望有更多的数据集作者能够参与共建千言 , 共同推动中文信息处理技术的进步 , 建设世界范围的中文信息处理影响力 。 我们计划在未来3年 , 面向20多个任务 , 收集和建设不少于100个中文自然语言处理数据集 , 覆盖语言与知识技术全部领域 。 ”
在峰会上 , 百度技术委员会主席吴华(中)与中国中文信息学会副理事长兼秘书长孙乐(左)、中国计算机学会自然语言处理专委会主任周国栋(右)一起正式启动千言计划:
过往年少|百度NLP十年:基于知识增强的语言技术,实现跨模态一体化理解除此之外 , 吴华还发布了百度语言与知识技术算力共享计划 , 通过百度AI STUDIO平台提供算力支持 , 让广大开发者破除算力桎梏 , 专注于技术创新 。
AI STUDIO这两年一经上线颇受广大AI开发者的喜爱 , 百度也是阔气无比 , 每个开发者每日都可免费享用16GB显存的Tesla V100 显卡资源 。
过往年少|百度NLP十年:基于知识增强的语言技术,实现跨模态一体化理解4 百度NLP十年十人
十年征程 , 百度语言与知识技术发展历程中培养、吸引了大量全球顶尖人才 。 在峰会上 , 百度推出以王海峰为代表的百度NLP“十年十人” , 他们分别是:


推荐阅读