:DeepMind技术加持,谷歌用AI改善 Duo 通话丢包
随着4G、5G通信技术发展 , 网络通话越来越盛行 。但是网络不稳定是常态 , 所以通话中我们时不时可能会蹦出一句 , “你能再重复一遍吗 , 刚刚网络不太好 。”
为了提高通话质量 , 谷歌近期在视频聊天应用duo中应用了一种新技术WaveNetEQ , 在出现音频丢包情况时 , 该技术会判断丢失的音频数据可能是什么 , 并替换掉它 , 背后的技术支持来自谷歌声名在外的DeepMind团队 。
文章图片
文章图片
一个完整的在线呼叫 , 数据经常会被分成多个小块 , 每小块就是一个数据包packet 。然而 , 在这些“数据包”从发送方传输到接收方的过程中 , 数据包通常会以错误的顺序到达 , 从而产生抖动相关问题 , 或者直接丢失 , 造成音频空白 。
谷歌给出一份资料显示 , duo 99%的通话都有数据包丢失、过度抖动或网络延迟情况 。20%的通话丢失了超过3%的音频 , 10%的通话丢包率超过8% , 也就是说每次通话都有很多音频需要替换 。
【:DeepMind技术加持,谷歌用AI改善 Duo 通话丢包】每个视音频app都会用某种方式处理丢包 。谷歌表示 , 这些数据包丢失隐藏(PLC)过程可能很难更好地填补60毫秒或更长时间的空白 。过去常用算法是NetEQ , 这是webRTC中音频技术方面的两大核心技术之一(另一核心技术是音频的前后处理 , 包括AEC、ANS、AGC等) 。webRTC是Google收购GIPS再开源的 , 是目前影响力极大的实时音视频通信解决方案 , 但用它处理丢包 , 大多情况下听起来像机器人或机械重复 。
谷歌就用了大量的语音数据训练出了基于DeepMind的WaveRNN技术的生成模型WaveNetEQ 。训练数据集来自100多名、48种不同语言的志愿者 , 也就是说它可以自动填补48种语言的PLC情况 。
WaveNetEQ是一种用于语音合成的递归神经网络模型 , 由两部分组成 , 即自回归网络(autoregressive network)和条件网络(conditioning network) 。自回归网络的作用是保持信号的平稳流动 , 而条件网络控制和影响自回归网络以保持音频一致性 。
谷歌用WaveNetEQ取代了原来的 NetEQ PLC 组件 , 相对于NetEQ , 它在声音质感方面无疑有提升 , 而且WaveNetEQ模型跑得足够快 , 可以在手机上运行 , 如此也可以规避用户可能担心的数据隐私问题 。谷歌称所有的处理都是在设备上进行 , 因为 Duo 的通话默认情况下就是端到端加密 。一旦通话的真实音频恢复 , 将无缝地切换到现实对话 。
不过 , WaveNetEQ替换的内容和时长有限制 。目前是支持在120毫秒以内的空白 , 之后会逐渐消失并归零;WaveNetEQ不是生成完整的单词 , 而是简单的音节 。
目前WaveNetEQ已经应用到Pixel 4手机上的 Duo APP 中 , 谷歌表示 , 它正在将其推广到其他安卓手机上 。
雷锋网了解到 , 当然用机器学习处理PLC并不是一个新鲜事儿 , 许多公司都在研究相关技术 , 以国内公司为例 , 有些是自身业务本就涉及视音频 , 比如腾讯;有些是音视频云服务商 , 比如阿里 , 还有一些是专门的音视频第三方服务商如声网等 。雷锋网(公众号:雷锋网)雷锋网
推荐阅读
- 快充@三口65瓦+氮化镓技术!征拓新品:小却如此强悍
- 『游戏』分体水冷加持,这款RTX 2080 SUPER够威猛
- 【】直播行业打响“技术战”,酷狗3D虚拟直播脱颖而出,优势何在?
- 技术@全球首套规模化太阳燃料合成示范项目试车成功丨转化亮点
- [技术]安芯半导体再出货一台光刻机,价值千万元!满足国内芯片企业需求
- 『技术』鹤壁:全面提升科技创新能力为建设高质量富美鹤城贡献科技力量(1)
- 技术@为楼宇安上“智慧大脑”,翠苑街道开创“一平台”数据互通模式
- 每日经济新闻咨询@联邦学习成人工智能新贵 腾讯安全:技术服务能力才是重点
- 区块链■币圈借央行数字货币自嗨 区块链技术前景未定
- 「事情」史海峰:万字长文剖析技术人如何成长
