|语音交互:从语音唤醒(KWS)聊起( 四 )
自定义唤醒词一般会打包成一个输入框提供给用户 , 用户只需要在框内按照我们的提示填写内容即可 , 在这里我们可能需要注意以下几点:
- 唤醒词要有明确的字数限制 , 比如3-6个字;
- 需要检测填写的唤醒词是否含有多音字 , 并进行提示 , 或支持注音修改;
- 是否替换默认唤醒词 , 有时需要新加的唤醒词替代默认唤醒词 , 有时可能是并存的;
- 自定义唤醒词的质量要高 , 就是前面说过的 , 相邻的音节要规避 , 音节要清晰 。
还有一个技术上面的问题 , 就是唤醒的效果要在功耗之间达到一个平衡 。
一般在电池供电的产品上 , 需要有专门控制语音唤醒的独立硬件 , 来平衡效果和功耗 , 达到一个相对理想的水平 。
4. 唤醒模型的动态调整
之前就听说过亚马逊音箱半夜被周围噪音误唤醒 , 然后给一些莫名其妙的回复 。 想想晚上睡着了 , 然后音箱突然自言自语 , 想想就比较恐怖 。
为了应对这种问题 , 我们可以动态调整音箱的唤醒阈值 , 比如正常的阈值是0.9以上进行唤醒 , 那么晚上可以根据应用场景 , 设置为0.8以上唤醒 , 具体还要看场景和模型的效果 。
本文插图
七、总结
整个过程需要先定义唤醒词 , 再根据实际场景选择模型 , 收集数据 , 最后上线迭代 。
随着产品的用户越来越多 , 训练数据越来越大 , 整个唤醒模型进入一个正向循环 , 再考虑支持自定义唤醒词的能力 。
语音唤醒作为语音交互的前置步骤 , 主要负责判断什么时候切换为工作状态 , 什么时候保持休眠状态 , 而这个判断依据就是语音信息 。
本文由 @我叫人人 原创发布于人人都是产品经理 。 未经许可 , 禁止转载
题图来自Unsplash , 基于CC0协议
推荐阅读
- 驱动中国|即信Fintech智研中心:银行践行社交化运营的要诀--渠道通 交互通 数据通
- |车内“大屏当道”?仙豆智能提出“无屏交互”构想
- 语音助手|AI智能时代 怎么能少得了语音技术
- 互联网|小爱同学新功能即将上线:粤语、语音遥控、童声识别内容过滤保护
- 智能机器人|人工智能语音机器人电销
- 驱动中国|Mintegral洞察:如何运用多次可迭代的交互式广告实现精细化投放?
- 语音助手|iOS 14 的8大隐藏新功能一次看懂!更炫的新辅助手势
- 智能穿戴,语音助手|TWS耳机它有哪些让人着迷的魅力,它的发展方向又在哪里?
- 地图|百度地图:注册开发者190万 个性化语音包每日播放1亿次
- 电池|“语音王”又出新机了!内置10000mAh大电池,重305g
