Siri:“Hey Siri” 背后的黑科技大揭秘!( 二 )


Siri:“Hey Siri” 背后的黑科技大揭秘!
本文插图

“Hey Siri!”背后的算法 用户的声音会以0.01秒为一帧的单位被采样下来 , 然后每次将20个这样的帧(0.2秒) , 连续输入到深度神经网络(DNN) , 神经网络将这些声音转换为概率密度函数 , 当该函数值超过最低阈值时 , 从而激活主处理器 。
Siri:“Hey Siri” 背后的黑科技大揭秘!
本文插图

【Siri:“Hey Siri” 背后的黑科技大揭秘!】 DNN训练
这里的阈值不是固定不变的 , 而是根据背景噪声而变化 。 因此 , 为了清楚地理解 , 你可以说DNN每时每刻都在计算阈值 。
此外 , 当第一次记录你的语音样本并生成“触发键”时 , 实际上是在训练该DNN并定义权重以计算概率 。
对于不同的口音 , DNN的训练是不同的 。 例如 , “Hey Siri”的发音有点像美国英语中的“Serious” , 只是它没有标点符号 。 而“Hey Siri!”中的“ i”发音长度不同 , 而且带有一个惊叹号 。
“Hey Siri”背后的数学计算 下面的内容是为所有机器学习爱好者准备的:) 。
这是深度神经网络(DNN)模型:
Siri:“Hey Siri” 背后的黑科技大揭秘!
本文插图

DNN模型
总的概率函数如下:
Siri:“Hey Siri” 背后的黑科技大揭秘!
本文插图

其中:

  • F(i,t)是模型中状态i的累计分数
  • q(i,t)是声学模型的输出 。 这个输出是语音类别的对数分数 , 它与时间t附近给定语音模式的第i个状态有关
  • s(i)是和留在状态i相关的开销
  • m(i)是从状态i继续向后移动的开销
这里的s(i)和m(i)与定义“触发键”时训练的权重相关 , 可以这样假设:
s(i)- 由“触发键”的单个帧决定 , 取决于音调、音量等参数 。
m(i)- 取决于“触发键”的频率 , 或简而言之速度 , 以及s(i)参数改变的大小和快慢 。
例如:m(i)和 s(i)对埃米纳姆(Eminem)和阿黛尔(Adele)来说是非常不同的 , 因为埃米纳姆唱得更快(实际上要快得多) , 同时变化较小 。 而阿黛尔唱得更慢些 , 而且变化更大 。
考虑到处理功率和电池消耗 , 对于协处理器(32层)和主处理器(192层) , DNN中的层级大小是不同的 。
“Hey Siri!”这项功能虽然没有被广泛宣传 , 但它却是朝着自动化和提高移动电话易用性迈出的革命性一步 。 它也可以被视为一个很好的例子 , 说明一个小小的改变如何对用户体验产生巨大的影响 , 以及这些小小的革命性改变有时需要进行广泛的研究 。
原文链接:https://hackernoon.com/how-does-hey-siri-work-without-your-iphone-listening-to-you-at-all-times-827932do
—完—
关注清华-青岛数据科学研究院官方微信公众平台“ AI数据派 ”及姊妹号“ 数据派THU ”获取更多讲座福利及优质内容 。


推荐阅读