Siri:“Hey Siri” 背后的黑科技大揭秘!( 二 )
本文插图
“Hey Siri!”背后的算法 用户的声音会以0.01秒为一帧的单位被采样下来 , 然后每次将20个这样的帧(0.2秒) , 连续输入到深度神经网络(DNN) , 神经网络将这些声音转换为概率密度函数 , 当该函数值超过最低阈值时 , 从而激活主处理器 。
本文插图
【Siri:“Hey Siri” 背后的黑科技大揭秘!】 DNN训练
这里的阈值不是固定不变的 , 而是根据背景噪声而变化 。 因此 , 为了清楚地理解 , 你可以说DNN每时每刻都在计算阈值 。
此外 , 当第一次记录你的语音样本并生成“触发键”时 , 实际上是在训练该DNN并定义权重以计算概率 。
对于不同的口音 , DNN的训练是不同的 。 例如 , “Hey Siri”的发音有点像美国英语中的“Serious” , 只是它没有标点符号 。 而“Hey Siri!”中的“ i”发音长度不同 , 而且带有一个惊叹号 。
“Hey Siri”背后的数学计算 下面的内容是为所有机器学习爱好者准备的:) 。
这是深度神经网络(DNN)模型:
本文插图
DNN模型
总的概率函数如下:
本文插图
其中:
- F(i,t)是模型中状态i的累计分数
- q(i,t)是声学模型的输出 。 这个输出是语音类别的对数分数 , 它与时间t附近给定语音模式的第i个状态有关
- s(i)是和留在状态i相关的开销
- m(i)是从状态i继续向后移动的开销
s(i)- 由“触发键”的单个帧决定 , 取决于音调、音量等参数 。
m(i)- 取决于“触发键”的频率 , 或简而言之速度 , 以及s(i)参数改变的大小和快慢 。
例如:m(i)和 s(i)对埃米纳姆(Eminem)和阿黛尔(Adele)来说是非常不同的 , 因为埃米纳姆唱得更快(实际上要快得多) , 同时变化较小 。 而阿黛尔唱得更慢些 , 而且变化更大 。
考虑到处理功率和电池消耗 , 对于协处理器(32层)和主处理器(192层) , DNN中的层级大小是不同的 。
“Hey Siri!”这项功能虽然没有被广泛宣传 , 但它却是朝着自动化和提高移动电话易用性迈出的革命性一步 。 它也可以被视为一个很好的例子 , 说明一个小小的改变如何对用户体验产生巨大的影响 , 以及这些小小的革命性改变有时需要进行广泛的研究 。
原文链接:https://hackernoon.com/how-does-hey-siri-work-without-your-iphone-listening-to-you-at-all-times-827932do
—完—
关注清华-青岛数据科学研究院官方微信公众平台“ AI数据派 ”及姊妹号“ 数据派THU ”获取更多讲座福利及优质内容 。
推荐阅读
- 『像素』荣耀潮流情报局:揭秘荣耀30系列预热视频背后的故事
- 【语音】Siri不够聪明,再给它一双眼吧!CMU与苹果合作,摄像头让AI助手更精确
- 『粤新房客』如果人类在太阳系中发现了比自己更落后的文明会怎样?
- 【什么值得买】24 期免息四舍五入等于不要钱?进化后的 Galaxy Buds+ 开箱及轻度体验
- [马云]卸任后的马云只拥有7的股权,为何却仍可以控制阿里
- 『极客公园』罗永浩和刘作虎,一场直播背后的故事与想象
- 『』AI 最前沿 | NVIDIA 技术专家带你探索自动驾驶背后的科学
- 「」iOS13.4.5 Beta2 系统推出,时隔两周后的更新
- 直播:对话海澜集团总裁:一场小程序直播300万观看背后的秘密
- 用户@行业寒冬月活用户千万级,深扒分期乐、360借条APP背后的运营策略
