|语音交互：从语音唤醒（KWS）聊起

编辑导语：随着手机的逐渐智能化，越来越多的手机只要听到指令就会帮助主人完成一些任务，这就是语音唤醒功能。本文作者围绕语音唤醒功能，从其应用有哪些、工作原理是什么、怎样训练一个唤醒模型、如何测试等方面展开了详细地讨论。
【|语音交互：从语音唤醒（KWS）聊起】

本文插图

“Hi siri”、“天猫精灵”、“小爱同学” ，我们生活中常常会叫到这些名字，让她们来帮我们完成一些指令，这个过程就像叫某人帮你做某事的感觉。
而这个叫名字的过程，就是我们今天要聊的语音唤醒。

本文插图

一、什么是语音唤醒
语音交互前，设备需要先被唤醒，从休眠状态进入工作状态，才能正常的处理用户的指令。
把设备从休眠状态叫醒到工作状态就叫唤醒，我们常见的有触摸唤醒（锁屏键），定时唤醒（闹钟），被动唤醒（电话）等，而语音唤醒就是——通过语音的方式将设备从休眠状态切换到工作状态。
语音唤醒（keyword spotting）：在连续语流中实时检测出说话人特定片段。
可能有长得好看的同学就要问了，我让他一直保持工作状态不可以吗？
工作状态的设备会一直处理自己收到的音频信息，把不是和自己说话的声音也当作有效信息处理，就会导致乱搭话的情况。而语音唤醒就成功的避开了这个问题，在只有用户叫名字的时候工作，其他时间休眠。
其实到底是否需要语音唤醒这个能力，也是看场景的，有些廉价的玩具，就是通过按住按钮进行语音交互的。
二、语音唤醒的应用有哪些
语音唤醒目前的应用范围比较窄，主要是应用在语音交互的设备上面，用来解决不方便触摸，但是又需要交互的场景。
生活中应用的最好，就应该是智能音箱了，每个品牌的智能音箱都有自己的名字，我们通过音箱的名字唤醒她，和她进行交互，控制家电。
其次就是手机，目前大部分手机都配有手机助手，从苹果最早的siri到现在的“小爱同学” ，让我们实现了即使不触碰手机，也可以实现一些操作。
还有一些服务类型的机器人，也会用到语音唤醒。
不过一般机器人会采用多模态的唤醒能力，他会结合语音唤醒、人脸唤醒、触摸唤醒、人体唤醒等多个维度的信息，在合适的时候进入工作状态。

本文插图

三、语音唤醒的工作原理是什么
语音唤醒能力主要依赖于语音唤醒模型（下称“唤醒模型”），是整个语音唤醒核心。
唤醒模型主要负责在听到唤醒词后马上切换为工作状态，所以必须要实时监测，才能做到听到后及时反馈。由于需要实时响应，以及唤醒模型对算力要求不高等方面原因，一般唤醒模型是做在本地的（区别于云端的ASR识别）。
这就是我们即使没有联网，你叫“小爱同学” ，她也会答应你的原因。
唤醒模型的算法经过了三个阶段的发展：
1. 基于模板匹配
用模板匹配的方法来做唤醒模型，一般会把唤醒词转换成特征序列，作为标准模板。
然后再把输入的语音转换成同样的格式，使用DTW （dynamic time warping）等方法，计算当前音频是否和模版匹配，匹配则唤醒，不匹配则继续休眠。
简单理解就是找到唤醒词的特征，根据特征制定触发条件，然后判断音频内容是否满足触发条件。

|语音交互：从语音唤醒（KWS）聊起

推荐阅读

家庭|一开始一家人融洽，结果怎样了？，非洲20岁女孩嫁给5兄弟当老婆

#黄金周#俄媒评述：黄金周表明中国回归正常生活

『显卡』RTX 3080 Ti显卡爆料：4倍光追性能、IPC提升20%

什么叫便秘(便秘调理方法)

2月中下旬你那里空气质量将会怎样？来看官方通报

『南巷猫叔说』每天给粉丝写纸条攒了一波温柔呢

土土女排|国乒对手参赛忙！男单比赛不过瘾，本周女单比赛也开始了

『消化』经常消化不好怎么回事？教大家几招来缓解

央视网|震源深度190公里，秘鲁南部发生6.1级地震

跑步前要做12项热身运动

鱼肝油的成分有哪些？

女生肾虚吃啥

八国联军为什么要打我们中国八国联军是怎么被中国打败的

妈咪是大王|长相大气有气质，谈到母亲时有些陌生，郎平女儿白浪身高189

孤芳自赏华而不实|输张本智和受到质疑，国乒世界冠军现身机场！25岁名将搭上末班车

互联网乱侃秀|谁来用鸿蒙系统？小米、OV们是不太可能用的，除了华为外

男士必备！5只低调时尚的腕表推荐

天极网|安卓用户选它就对了，500元内真无线耳机推荐

贵州|贵州公交坠湖，司机最后动态疑曝光！微笑唱歌：感谢上天最美的安排

娱乐有料说一起来看看吧！，别让你的“房”“车”梦因”它“而破灭