|语音交互:从语音唤醒(KWS)聊起( 四 )


自定义唤醒词一般会打包成一个输入框提供给用户 , 用户只需要在框内按照我们的提示填写内容即可 , 在这里我们可能需要注意以下几点:

  1. 唤醒词要有明确的字数限制 , 比如3-6个字;
  2. 需要检测填写的唤醒词是否含有多音字 , 并进行提示 , 或支持注音修改;
  3. 是否替换默认唤醒词 , 有时需要新加的唤醒词替代默认唤醒词 , 有时可能是并存的;
  4. 自定义唤醒词的质量要高 , 就是前面说过的 , 相邻的音节要规避 , 音节要清晰 。
3. 功耗和唤醒率的权衡
还有一个技术上面的问题 , 就是唤醒的效果要在功耗之间达到一个平衡 。
一般在电池供电的产品上 , 需要有专门控制语音唤醒的独立硬件 , 来平衡效果和功耗 , 达到一个相对理想的水平 。
4. 唤醒模型的动态调整
之前就听说过亚马逊音箱半夜被周围噪音误唤醒 , 然后给一些莫名其妙的回复 。 想想晚上睡着了 , 然后音箱突然自言自语 , 想想就比较恐怖 。
为了应对这种问题 , 我们可以动态调整音箱的唤醒阈值 , 比如正常的阈值是0.9以上进行唤醒 , 那么晚上可以根据应用场景 , 设置为0.8以上唤醒 , 具体还要看场景和模型的效果 。
|语音交互:从语音唤醒(KWS)聊起
本文插图

七、总结
整个过程需要先定义唤醒词 , 再根据实际场景选择模型 , 收集数据 , 最后上线迭代 。
随着产品的用户越来越多 , 训练数据越来越大 , 整个唤醒模型进入一个正向循环 , 再考虑支持自定义唤醒词的能力 。
语音唤醒作为语音交互的前置步骤 , 主要负责判断什么时候切换为工作状态 , 什么时候保持休眠状态 , 而这个判断依据就是语音信息 。
本文由 @我叫人人 原创发布于人人都是产品经理 。 未经许可 , 禁止转载
题图来自Unsplash , 基于CC0协议


推荐阅读