音频|腾讯商世东:天籁音频技术让云会议“听得见、听得清、听得真”( 三 )


比如说我们讲 , 用语音分离技术来解决我后面会提到的这种鸡尾酒会的问题 。 然后还有进一步的 , 是我们在天籁音频系统里面提供的一些差异化体验 。 我们提供的这种差异化的体验 , 比如说我们后面会讲到的这种特定主讲人增强或者是特定目标人语音增强 , 就是它只增强你希望增强的特定人的声音 。 然后我们还会有这种音视频多模态的音频跟视频技术 , 应用他的脸部信息 , 特别是唇部信息来做语音增强工作 。
下面一页是我们端到端整个实时语音通讯技术的一个全景图 。 基本的框架我们是从音频工程开始 , 经过了音频分析、分类、视频和处理之后 , 然后送到我们的音频引擎和网络抗性增强里面来做进一步的编解码 。 因为只有经过这样子的音频引擎和网络抗性的处理之后 , 我们讲音频语音包才适合在这种基于IP的网络上面进行传输 , 然后在下行端或者我们讲播放端 , 我们收到了语音包 , 经过各种音频下行语音后处理之后 , 经过它适配过的这种音频硬件外设上面 , 给他以这种失真尽可能小 , 用户尽可能感到舒适的这种方式给他播放出来 。
下面我讲一下几个我们在天籁音频技术里面比较有亮点的技术 。
第一个是超宽带语音技术 。 超宽带语音技术主要是在这种云视频会议里面因为存在着一些外设 , 他们有很强的采集和播放能力 。 它可以提供一个非常宽的音频带宽 , 在这样的音频带宽下使用超宽带语音技术可以提供一个更优秀的音质 , 所以我们把整个语音的带宽从这种宽带进一步提升到超宽带 , 然后这个实现过程并不是简单的把采样率升级就行的 。
音频外设存在着的多样性、复杂性 , 在这里我们为了保证我们超宽率语音技术能够适配于各种硬件 , 我们在解决方案的鲁棒性做了很多的工作 , 以保证在我们的超宽带语音技术能够在各种各样的设备上面都尽可能地展现出它最优异的能力 , 提供一个最好的体验 。 我们可以看到右边一幅图里 , 经过超宽带和非超宽带处理 , 其实整个语音的清晰度是有很大的不一样的 。
另外, 下面一个技术我们讲是多次道语音增强技术 。 因为这也是在云视频会议场景里面有一些会议室里面 , 它会存在着多通道的音频采集跟播放功能 。 我们在整个天籁音频技术里面会根据终端设备它能力的不一样 , 来自动决定你是采用单通道还是多通道的语音降噪和增强功能 。 如果是多通道 , 还有另外一个值得在这里介绍的 , 就是我们相应的去混响的技术 。 因为我们讲是在一些特别是现在的办公室里面存在着这种玻璃房 , 里面会存在通常有很强的混响 。 在这样的条件之下 ,经过我们的多通道去混响和降噪技术能够大幅度提升整个音质 。
另外 , 值得一讲的是 , 毕竟我们端到端的实时语音通讯 , 除了端上面的各种音效处理之外 , 我们的各种技术还是要跑在IP网络上面 。 IP网络我们都知道 , 面临就是这样一个最不确定的问题 , 就是它网络的QOS 它的丢包、延迟、还有抖动 , 会对整个语音的流畅性连续性有一个很大的影响 。 所以我们在天籁音频里面有专门利用深度学习的技术 , 能够突破业界里面现在通常使用的20到40毫秒的这样一个语音丢包补偿的局限性 。
我们在我们的天籁音频里面 , 我们可以支持连续补偿20到100毫秒的这样的一个语音包的语音数据 , 能够显著的提升我们在弱网环境下的一个通信质量和可容度 。 我们可以看到其实经过我们实际的现网的一些数据证明我们可以把在现网上45%甚至45%丢包率的场景下 , 可以有效提升正个语音质量的MOS分到0.2到0.3分 。
刚才我也提到声学场景识别 , 其实对于我们整个方案的定制化有很重要的作用 。 在不同的声学场景里面 , 其实我们如果能够准确的检测到入会的参会人是什么样声学场景 , 可以有针对性的进行很多处理 。 我们在整个声音场景上面 , 我们今天还参加了DCASE2020的比赛 , DCASE 2020比赛采集了12个欧洲城市的10种不同的声学场景 , 有四大类不同录音设备 , 我们的方案在这里面取得了一个两项单项排名第二的成绩 。 现在我们方案可以有效的识别就像我刚才讲的我们这种常用的入会场景 , 并且在不同的入会场景里面根据它给出来的声学场景识别的信息 , 做定制化的处理 。


推荐阅读