Siri：“Hey Siri” 背后的黑科技大揭秘！( 二 ) |深度学习|iPhone

本文插图

“Hey Siri！”背后的算法用户的声音会以0.01秒为一帧的单位被采样下来，然后每次将20个这样的帧（0.2秒），连续输入到深度神经网络（DNN），神经网络将这些声音转换为概率密度函数，当该函数值超过最低阈值时，从而激活主处理器。

本文插图

【Siri：“Hey Siri” 背后的黑科技大揭秘！】 DNN训练
这里的阈值不是固定不变的，而是根据背景噪声而变化。因此，为了清楚地理解，你可以说DNN每时每刻都在计算阈值。
此外，当第一次记录你的语音样本并生成“触发键”时，实际上是在训练该DNN并定义权重以计算概率。
对于不同的口音， DNN的训练是不同的。例如， “Hey Siri”的发音有点像美国英语中的“Serious” ，只是它没有标点符号。而“Hey Siri！”中的“ i”发音长度不同，而且带有一个惊叹号。
“Hey Siri”背后的数学计算下面的内容是为所有机器学习爱好者准备的：）。
这是深度神经网络（DNN）模型：

本文插图

DNN模型
总的概率函数如下：

本文插图

其中：

F(i,t)是模型中状态i的累计分数
q(i,t)是声学模型的输出。这个输出是语音类别的对数分数，它与时间t附近给定语音模式的第i个状态有关
s(i)是和留在状态i相关的开销
m(i)是从状态i继续向后移动的开销

这里的s(i)和m(i)与定义“触发键”时训练的权重相关，可以这样假设：
s(i)- 由“触发键”的单个帧决定，取决于音调、音量等参数。
m(i)- 取决于“触发键”的频率，或简而言之速度，以及s(i)参数改变的大小和快慢。
例如：m(i)和 s(i)对埃米纳姆（Eminem）和阿黛尔（Adele）来说是非常不同的，因为埃米纳姆唱得更快（实际上要快得多），同时变化较小。而阿黛尔唱得更慢些，而且变化更大。
考虑到处理功率和电池消耗，对于协处理器（32层）和主处理器（192层）， DNN中的层级大小是不同的。
“Hey Siri!”这项功能虽然没有被广泛宣传，但它却是朝着自动化和提高移动电话易用性迈出的革命性一步。它也可以被视为一个很好的例子，说明一个小小的改变如何对用户体验产生巨大的影响，以及这些小小的革命性改变有时需要进行广泛的研究。
原文链接：https://hackernoon.com/how-does-hey-siri-work-without-your-iphone-listening-to-you-at-all-times-827932do
—完—
关注清华-青岛数据科学研究院官方微信公众平台“ AI数据派 ”及姊妹号“ 数据派THU ”获取更多讲座福利及优质内容。