科技小数据 原来背后有这些原因,车载语音越来越好用了( 二 )
当然 , 这并不是说BAT没有实现ASR和TTS的能力 , 据了解有些互联网大厂已经开始做相关的技术储备 。 只是语音交互是一个从前端降噪-语音触发-识别-理解-语音反馈的长技术链 , 而科大讯飞、思必驰、纽昂司等老牌语音公司 , 在ASR和TTS这种基础语音能力的工程化交付上有更多的经验 , 所以大家各司其职 , 合并合作 , 其实是更有效率的做法 。

文章图片
2.不把语音当产品 , 而把语音当平台 。
我们在《奇妙车机情报局》还测过一个产品 , 是博泰开发的擎Mobile 。 当时确实给到我比较舒适的体验 。 (这里不谈论它的产品路径 , 只谈语音功能的实现 。 )
它的识别速度很快 , 纠错能力较好 。 可以一边听 , 一边说 , 一边执行命令 , 还可以随时打断 。 我可以说话声音很小 , 也可以说很长一段话 。 它可以清晰识别 , 然后摘出长对话里的多个语音命令 。
据了解 , 如果车载语音仅依靠供应商 , 那用户的指令从触发 , 到识别 , 到理解 , 到反馈 , 再到执行 , 是一个脱离的过程 , 反应时间自然就长 。 而博泰认为 , 车载语音不只是一个技术产品 , 而应该是一个涉及到整车的电子电气架构、车辆信息安全以及车辆数据闭环的「平台」 。
所以擎Mobile是一套集成了芯片、硬件、软件、云端和生态的平台化产品 。
以导航功能为例 , 它会在识别指令的同时 , 直接抓取关键字上传到地图引擎 。 比如我说「导航到北京机场T3航站楼的停车场接个人」 , 关键词是北京、T3、停车场 。 关键词抓完 , 导航实施执行 。 所以有可能我话没说完 , 云端已经开始计算执行了 。 这是集成的好处 。
当然这个产品也并不完美 , 在我当时的体验下 , 虽然语音有很极致的体验 , 但它和其他应用生态的结合和适配比较一般 。 另外未来博泰如何把相关能力输出给OEM , 我也暂时打个问号 。

文章图片
3.自己定义语音交互框架 。
近期小鹏汽车的新车型P7火了(不是着火了) , 最亮眼的部分之一就是它的车载语音 。
识别速度很快 , 功能结合深入 , 对话逻辑自然幽默 , 语音助手的新形象也更高级了一些 , 而且语音反馈的女声实在是很甜美 。 这其实能表明 , AISpeech和XpenginHouse把ASR做的扎实 , TTS优化地好 , NLU也做了比较深刻的训练 。
值得一提的是 , P7的语音交互框架是小鹏自己搭建的 , 所以它也不只是个简单的产品 , 而是个平台 。 它可以在初期就构建很多深层的功能 , 让车内的数据联动起来 , 同时对数据安全和用户隐私进行保护和封锁 。 也正因为功能是自己定义的 , 所以用户数据自然也就跑到自家口袋里来 , 这就让运营用户成为可能 。
相对BAT提供的语音能力 , 小鹏汽车有完全自主的产品定义权;相对博泰 , 小鹏汽车有产品做支撑 。 P7的语音系统确实是一个占优势的产品 。

文章图片
另外 , 再说说说自己搭建语音交互框架有多重要 。 我举个反例 。 近期我们体验了一套传统豪华品牌下全新换代车型的车机系统 。 这套语音系统的框架是德国定义的 , 语音供应商分别有两家 , 一家是纽昂司 , 一家是国内供应商(我们暂且称它为XX) , 同时它还接入了天猫精灵的能力 。
纽昂司和XX都承担了ASR和NLU的任务 , 算是并行关系 , 所以用户输入任何一个指令 , 这俩通道都要跑一遍 , 最后它俩统一口径实行指令 。 一旦谁慢了 , 就要互相等着 , 所以这套语音的执行速度较慢 。 而且它的TTS有拖音现象 , 据说是历史遗留问题 , 是上代车型上的老方案 , 所以只能如此 。 再说天猫精灵 , 它并不会自然唤醒 , 而是你要对唤醒的语音说一句「你好 , 天猫精灵」 , 它才会出现 。
推荐阅读
- 小畜播报|于小彤陈小纭疑似分手?删除动态,原来早有预兆!
- 科技一哥|荣耀30青春版图集赏析:触觉与视觉的完美享受
- 科技犬君|vs 索尼A9G 谁强?,上半年用户喜爱手机盘点;小米电视大师65英寸OLED
- 精选泛科技|结果如何?,一加8续航遭质疑:上半年最全机型横评出炉
- 科技犬君上半年用户喜爱手机盘点;小米电视大师65英寸OLED vs 索尼A9G 谁强?
- 科技生活快报TB5000mAh大电池还有65W超级快充!这些手机让你摆脱充电焦虑
- 精选泛科技一加8续航遭质疑:上半年最全机型横评出炉,结果如何?
- 阿拉图图科技说三星新机口碑虽好,但中国市场销量翻车,用户几乎跑光!
- 华为Mate30美科技界:华为再强大也只是一家民企,我们究竟在怕什么?
- 行业|高增长+高回撤!请收好这份“补票”名单,11只核心资产股入围,百亿科技股已跌出“深坑”
