|语音交互:从语音唤醒(KWS)聊起( 三 )


五、语音唤醒怎么测试
语音唤醒测试最好是可以模拟用户实际的使用场景进行测试 , 因为不同环境可能实现的效果不一样 。 比如:常见各个厂商说自己的唤醒率99% , 很可能就是在一个安静的实验室环境测试的 , 这样的数字没有任何意义 。
这里说到的场景主要包括以下几点:周围噪音环境、说话人声音响度、以及说话距离等 。
测试的条件约束好 , 我们就要关心测试的指标了 , 一般测试指标如下:
1. 唤醒率
唤醒词被唤醒的概率 , 唤醒率越高 , 效果越好 , 常用百分比表示 。
在模拟用户使用的场景下 , 多人多次测试 , 重复的叫唤醒词 , 被成功唤醒的比就是唤醒率 。 唤醒率在不同环境下 , 不同音量唤醒下 , 差别是非常大的 。
用25dB的唤醒词测试 , 在安静场景下 , 3米内都可以达到95%以上的唤醒率 , 在65-75dB噪音场景下(日常交谈的音量) , 3米内的唤醒率能够达到90%以上就不错了 。
所以看到各家唤醒率指标的时候 , 我们要意识到是在什么环境下测试的 。
2. 误唤醒率
非唤醒词被唤醒的概率 , 误唤醒率越高 , 效果越不好 , 常用24小时被误唤醒多少次表示 。
在模拟用户使用的场景下 , 多人多次测试 , 随意叫一些非唤醒词内容 , 被成功唤醒的比就是误唤醒率 。
如果误唤醒率高 , 就可能出现你在和别人说话 , 智能音箱突然插嘴的情况 。
|语音交互:从语音唤醒(KWS)聊起
本文插图

3. 响应时间
用户说完唤醒词后 , 到设备给出反馈的时间差 , 越快越好 。
纯语音唤醒的响应时间基本都在0.5秒以内 , 加上语音识别的响应时间就会比较长 , 我们下章再讨论 。
4. 功耗
唤醒系统的耗电情况 , 对于电池供电的设备 , 越低越好 。
一般插电使用的音箱还好 , 对功耗的要求不是很严格 。 但是像手机、儿童玩具等产品 , 由于是电池供电 , 对功耗的要求较高 。
siri是iphone4s就有的语音助手 , 但直到iphone6s的时候 , 才允许不接电源下直接通过语音唤醒siri , 当时就是考虑功耗的原因 。
六、语音唤醒的其他内容
1. 唤醒后的反馈
我们通过唤醒词唤醒设备后 , 需要一个及时的反馈 , 来提醒我们唤醒成功 , 这就要考验产品的设计功力了 。
一般会有两个可感知的层面上进行提示 , 一个是听觉方面 , 一个是视觉方面(暂不考虑震动) 。
听觉方面的反馈 , 又分为两种:
语音回复一般常见的有“在的”、“嗯嗯”、“来了”等 , 都是一些简短的回复 , 表示已经听到 。 这几句TTS的内容需要仔细打磨 , 反复调试 , 才能达到一个理想的效果 , 建议不要超过1秒 。
声音提示往往是在语音回复之后 , 提示用户可以进行语音交互了 , 一般都是一个简短的音效 , 之后就开始收音了 。
视觉方面的反馈 , 也可以分为两种:
灯效反馈常见于智能音箱的产品上面 , 他们没有屏幕 , 但是也需要在视觉上提示用户 , 一般不同颜色的灯效 , 表示机器不同的状态 , 是有明确的产品定义的 。
屏幕反馈可以做的事情就比较多了 , 可以根据自己产品的需求 , 设计提示的强度 , 是弹出浮窗 , 还是弹出页面 , 根据不同的应用场景来设计 , 这里就不展开讨论了 。
还有一种情况 , 中间是不需要反馈的 , 比如“天猫精灵 , 打开灯”这样一气呵成的唤醒+交互 , 我们只需要执行相应的指令 , 并给出最后执行结果的反馈即可 。
|语音交互:从语音唤醒(KWS)聊起
本文插图

2. 自定义唤醒词
随着语音交互的普及 , 逐渐衍生出一些个性化的需求 , 大家开始给自己的设备起一个专属的名字 , 这就是自定义唤醒词 。


推荐阅读