搜狗王砚峰:未来人人都会需要AI录音笔

“搜狗公司的使命是让表达和获取信息更简单 , 而信息表达和获取的核心载体是语言 , 我们在AI上也是围绕语言这个核心去展开” 。 搜狗AI交互事业部总经理王砚峰向艾瑞网介绍了搜狗对于人工智能的定位 。

作为一家起家于搜索业务的互联网公司 , 在原有核心业务保持快速增长的同时 , 搜狗公司AI技术也在不断突破:语音识别技术升级 , 搜狗目前可支持识别英日韩法西俄等十余种外语和粤语、四川话等多种方言识别 , 语音识别准确率达到98% , 准确率和响应速度均为行业领头者 , 在语音输入与语音转写、会场同传、语音采访等多个场景可取得良好的落地效果;多模态识别技术领跑业内 , 通过对用户唇形、语音、表情的多维输入视频即可将视频内的语音更准确地转写为文字 , 极大地提升了噪声环境下语音识别效果;语音合成技术持续加码 , 基于多目标学习、表现力迁移的AI分身、用户“变声”、个性化TTS等都在业界具有先发优势 , 表现抢眼 。

谈到未来搜狗对AI交互的发展规划 , 王砚峰认为 , 语音输入法还是要做好 , 巩固输入法产品的地位;会围绕AI交互这个赛道 , 推出更多自有品牌的智能硬件 , 而在终端赋能方面 , 要让硬件与搜狗输入法、C端数据打通 , 让搜狗走出提供技术来提供服务 。


搜狗王砚峰:未来人人都会需要AI录音笔

----搜狗王砚峰:未来人人都会需要AI录音笔//----

王砚峰 , 搜狗AI交互事业部总经理 。 负责搜狗语音、视觉、NLP等技术的研发及应用 , 以及基于AI技术的产品创新和行业服务 。

从输入法进军智能语音

艾瑞网:首先请您介绍一下 , 搜狗AI交互的起点是什么产品?

王砚峰:搜狗的AI交互起源于输入法 , 语音输入是输入法的一个核心功能 , 搜狗智能语音发展也受益于输入法的大量用户数据与行为数据 。

搜狗输入法语音输入功能于11年开始研发 , 12年面世 , 13年上线了深度神经网络 。

搜狗王砚峰:未来人人都会需要AI录音笔。 谈及搜狗输入法“刷新”AI交互技能的原因 , 核心有三点:(1)语音输入提升了用户传递信息的效率 , 相比打字输入体验更好、更快捷;(2)语音转化场景如翻译场景下 , 智能语音为用户提供了一个提供方便的入口 , 当用户说完一条语音信息 , 相应的译文就已经准备好可以直接发送了 , 减少了反复的手动操作 , 搜狗现在已经做到了中英日韩四种对话语音随心译;(3)语言除了是传递信息的工具 , 也是人们表达自我的一种手段 , AI能够帮助输入法产品去做用户个性化的表达 。

搜狗输入法作为头部的输入法产品 , 在这三个方向上都跑得很快 。 语音输入 , 传统上是非个性、面向所有用户都一样的语音转文字 , 2019年我们上线了跟用户词库和语音识别引擎打通的“个性化语音识别” , 使用户常用语识别错误率相对下降近40% , 比如用户工作场景相关的内容识别率会更高 , 免去了手动修改的麻烦 , 这个功能的使用频率很高 , 甚至使我们搜狗输入法产品的账户登录比例提高10%以上 。 在语言个性化表达方面 , 我们2019年推出了变声功能 , 能够将用户的声音转换成特定人的声音 , 语速、停顿、情感等说话习惯均可被转换为超高逼真度的指定角色声音;而除了语音类的个性化表达 , AI助手“智能汪仔”能够在各种聊天场景中理解用户输入的文字信息 , 从而为用户推荐丰富多样的表情包和回复的“妙语替换” 。


推荐阅读