|语音交互：从语音唤醒（KWS）聊起( 四 )

自定义唤醒词一般会打包成一个输入框提供给用户，用户只需要在框内按照我们的提示填写内容即可，在这里我们可能需要注意以下几点：

唤醒词要有明确的字数限制，比如3-6个字；
需要检测填写的唤醒词是否含有多音字，并进行提示，或支持注音修改；
是否替换默认唤醒词，有时需要新加的唤醒词替代默认唤醒词，有时可能是并存的；
自定义唤醒词的质量要高，就是前面说过的，相邻的音节要规避，音节要清晰。

3. 功耗和唤醒率的权衡
还有一个技术上面的问题，就是唤醒的效果要在功耗之间达到一个平衡。
一般在电池供电的产品上，需要有专门控制语音唤醒的独立硬件，来平衡效果和功耗，达到一个相对理想的水平。
4. 唤醒模型的动态调整
之前就听说过亚马逊音箱半夜被周围噪音误唤醒，然后给一些莫名其妙的回复。想想晚上睡着了，然后音箱突然自言自语，想想就比较恐怖。
为了应对这种问题，我们可以动态调整音箱的唤醒阈值，比如正常的阈值是0.9以上进行唤醒，那么晚上可以根据应用场景，设置为0.8以上唤醒，具体还要看场景和模型的效果。

本文插图

七、总结
整个过程需要先定义唤醒词，再根据实际场景选择模型，收集数据，最后上线迭代。
随着产品的用户越来越多，训练数据越来越大，整个唤醒模型进入一个正向循环，再考虑支持自定义唤醒词的能力。
语音唤醒作为语音交互的前置步骤，主要负责判断什么时候切换为工作状态，什么时候保持休眠状态，而这个判断依据就是语音信息。
本文由 @我叫人人原创发布于人人都是产品经理。未经许可，禁止转载
题图来自Unsplash ，基于CC0协议