|语音交互:从语音唤醒(KWS)聊起


编辑导语:随着手机的逐渐智能化 , 越来越多的手机只要听到指令就会帮助主人完成一些任务 , 这就是语音唤醒功能 。 本文作者围绕语音唤醒功能 , 从其应用有哪些、工作原理是什么、怎样训练一个唤醒模型、如何测试等方面展开了详细地讨论 。
【|语音交互:从语音唤醒(KWS)聊起】
|语音交互:从语音唤醒(KWS)聊起
本文插图

“Hi siri”、“天猫精灵”、“小爱同学” , 我们生活中常常会叫到这些名字 , 让她们来帮我们完成一些指令 , 这个过程就像叫某人帮你做某事的感觉 。
而这个叫名字的过程 , 就是我们今天要聊的语音唤醒 。
|语音交互:从语音唤醒(KWS)聊起
本文插图

一、什么是语音唤醒
语音交互前 , 设备需要先被唤醒 , 从休眠状态进入工作状态 , 才能正常的处理用户的指令 。
把设备从休眠状态叫醒到工作状态就叫唤醒 , 我们常见的有触摸唤醒(锁屏键) , 定时唤醒(闹钟) , 被动唤醒(电话)等 , 而语音唤醒就是——通过语音的方式将设备从休眠状态切换到工作状态 。
语音唤醒(keyword spotting):在连续语流中实时检测出说话人特定片段 。
可能有长得好看的同学就要问了 , 我让他一直保持工作状态不可以吗?
工作状态的设备会一直处理自己收到的音频信息 , 把不是和自己说话的声音也当作有效信息处理 , 就会导致乱搭话的情况 。 而语音唤醒就成功的避开了这个问题 , 在只有用户叫名字的时候工作 , 其他时间休眠 。
其实到底是否需要语音唤醒这个能力 , 也是看场景的 , 有些廉价的玩具 , 就是通过按住按钮进行语音交互的 。
二、语音唤醒的应用有哪些
语音唤醒目前的应用范围比较窄 , 主要是应用在语音交互的设备上面 , 用来解决不方便触摸 , 但是又需要交互的场景 。
生活中应用的最好 , 就应该是智能音箱了 , 每个品牌的智能音箱都有自己的名字 , 我们通过音箱的名字唤醒她 , 和她进行交互 , 控制家电 。
其次就是手机 , 目前大部分手机都配有手机助手 , 从苹果最早的siri到现在的“小爱同学” , 让我们实现了即使不触碰手机 , 也可以实现一些操作 。
还有一些服务类型的机器人 , 也会用到语音唤醒 。
不过一般机器人会采用多模态的唤醒能力 , 他会结合语音唤醒、人脸唤醒、触摸唤醒、人体唤醒等多个维度的信息 , 在合适的时候进入工作状态 。
|语音交互:从语音唤醒(KWS)聊起
本文插图

三、语音唤醒的工作原理是什么
语音唤醒能力主要依赖于语音唤醒模型(下称“唤醒模型”) , 是整个语音唤醒核心 。
唤醒模型主要负责在听到唤醒词后马上切换为工作状态 , 所以必须要实时监测 , 才能做到听到后及时反馈 。 由于需要实时响应 , 以及唤醒模型对算力要求不高等方面原因 , 一般唤醒模型是做在本地的(区别于云端的ASR识别) 。
这就是我们即使没有联网 , 你叫“小爱同学” , 她也会答应你的原因 。
唤醒模型的算法经过了三个阶段的发展:
1. 基于模板匹配
用模板匹配的方法来做唤醒模型 , 一般会把唤醒词转换成特征序列 , 作为标准模板 。
然后再把输入的语音转换成同样的格式 , 使用DTW (dynamic time warping)等方法 , 计算当前音频是否和模版匹配 , 匹配则唤醒 , 不匹配则继续休眠 。
简单理解就是找到唤醒词的特征 , 根据特征制定触发条件 , 然后判断音频内容是否满足触发条件 。
|语音交互:从语音唤醒(KWS)聊起


推荐阅读