语音|快看 | 达摩院语音AI新进展:移动端语音识别与合成支持断网不中断

_原题为 快看 | 达摩院语音AI新进展:移动端语音识别与合成支持断网不中断
语音|快看 | 达摩院语音AI新进展:移动端语音识别与合成支持断网不中断
文章图片

图片来源:视觉中国

采访人员 | 林北辰
9月18日 , 在2020云栖大会上 , 达摩院公布了语音AI技术的最新突破:移动端的语音识别与合成可以支持断网不中断;仅从语音识别能力来看 , 手机上不到40兆的系统可以媲美过去云端上200G系统的效果 。
【语音|快看 | 达摩院语音AI新进展:移动端语音识别与合成支持断网不中断】所谓的“端上”语音交互能力 , 指的是在例如高德地图等手机App内的语音识别和合成功能 。 过去 , 由于精确的语音交互任务长期依赖云端算力 , 造成了语音指令处理不可避免地延时等问题 , 移动端的语音功能并不完整 。
很长一段时间 , 在语音识别领域 , 文字转录、体感较好的语音识别和合成功能主要在云端完成 , 这是由于云上的算力较强 , 能够支持语音识别对算力的要求 。 相较之下 , 手机端的CPU和内存容量较小 , 对语音识别功能来说 , 在不联网的情况下 , 手机端的算力和内存较难支持高精度的语音识别 。
但本次云栖大会上 , 达摩院对外声称 , 已取得了技术上的突破 , 未来个人用户在移动终端也能实现更精准的语音交互 , 即便在断网的情况下 , 手机上的语音识别及合成能力仍可以媲美云端 。 目前这项最新的语音技术已接入淘宝直播、钉钉会议、高德导航等场景应用 , 并进入对外开放阶段 。
从技术上来看 , 此次达摩院的创新在于算法模型上的突破 , 推出E2E-ASR端到端语音识别技术及端上KAN-TTS语音合成技术 , 这两项技术将高难度场景中的语音识别错误率降低近三成 , 可以说是近期移动端语音识别技术最大的突破 。
语音|快看 | 达摩院语音AI新进展:移动端语音识别与合成支持断网不中断
文章图片

具体应用上 , 高德地图近期发布了利用达摩院全新语音技术合成的李佳琦、林志玲、小团团等明星导航语音包 , 创新点在于断网状态下的语音导航不会中断 。
这样的效果背后 , 是达摩院对语音模型进行了“大瘦身” , 将移动端的语音模型缩小至云端的一百零一分之一 , 计算量压缩35倍 。 这是继去年发布仿真率可达97%的自研KAN-TTS语音合成模型后的又一次进步 。
2019年 , 阿里语音AI曾入选《麻省理工评论》“全球十大突破性技术” , 是唯一上榜的中国科技公司;今年7月IDC发布的《中国AI云服务市场半年度研究报告》显示 , 阿里语音AI以44%的市场份额 , 在云上语音AI市场中位居第一 。


    推荐阅读