秀秀科技 微软联合浙大提出FastSpeech2,FastSpeech语音合成系统技术升级

文章图片

文章图片
【秀秀科技 微软联合浙大提出FastSpeech2,FastSpeech语音合成系统技术升级】来源|微软研究院AI头条(ID:MSRAsia)
编者按:基于深度学习的端到端语音合成技术进展显著 , 但经典自回归模型存在生成速度慢、稳定性和可控性差的问题 。 去年 , 微软亚洲研究院和微软Azure语音团队联合浙江大学提出了快速、鲁棒、可控的语音合成系统FastSpeech , 近日研究团队又将该技术升级 , 提出了FastSpeech2和FastSpeech2s , 在提升语音合成质量的同时 , 大大简化了训练流程 , 减少了训练时间 , 加快了合成速度 。
近年来 , 以FastSpeech为代表的非自回归语音合成(TexttoSpeech,TTS)模型相比传统的自回归模型(如Tacotron2)能极大提升合成速度 , 提升语音鲁棒性(减少重复吐词、漏词等问题)与可控性(控制速率和韵律) , 同时达到相匹配的语音合成质量 。 但是 , FastSpeech还面临以下几点问题:
FastSpeech依赖Teacher-Student的知识蒸馏框架 , 训练流程比较复杂;
由于知识蒸馏 , FastSpeech的训练目标相比真实语音存在信息损失 , 同时从Teacher模型获得的时长(Duration)信息不够准确 , 两者都会影响合成语音质量 。
为了解决上述问题 , 微软亚洲研究院和微软Azure语音团队联合浙江大学提出了FastSpeech的改进版FastSpeech2 , 它抛弃了Teacher-Student知识蒸馏框架降低训练复杂度 , 直接用真实的语音数据作为训练目标避免信息损失 , 同时引入了更精确的时长信息和语音中的其它可变信息(包括音高(Pitch)和音量(Energy)等)来提高合成的语音质量 。 基于FastSpeech2 , 我们还提出了加强版FastSpeech2s以支持完全端到端的从文本到语音波形的合成 , 省略了梅尔频谱的生成过程 。 实验结果表明 , FastSpeech2和2s在语音质量方面优于FastSpeech , 同时大大简化了训练流程减少了训练时间 , 还加快了合成的速度 。
FastSpeech2和2s的样例音频网址已经公开在:
https://speechresearch.github.io/fastspeech2/
论文公开在:https://arxiv.org/pdf/2006.04558.pdf

文章图片
模型框架

文章图片
图1:FastSpeech2和2s模型框架 。 图1(b)中的LR表示FastSpeech中的序列长度适配操作 , 图1(c)中的LN表示层归一化 , 可变信息预测器(variancepredictor)包括时长、音高和能量预测器 。
主架构
FastSpeech2的模型架构如图1(a)所示 , 它沿用FastSpeech中提出的Feed-ForwardTransformer(FFT)架构 , 但在音素编码器和梅尔频谱解码器中加入了一个可变信息适配器(VarianceAdaptor) , 从而支持在FastSpeech2和2s中引入更多语音中变化的信息 , 例如时长、音高、音量(频谱能量)等 , 来解决语音合成中的一对多映射问题(文本到语音合成中 , 一条文本可以对应到多条可变的语音 , 这些可变信息包括语音时长、音高、音量等 。 FastSpeech通过知识蒸馏降低语音训练目标的变化性来缓解一对多映射问题 , 但也造成了训练目标的信息损失 。 FastSpeech2通过引入对应的可变信息作为解码器输入 , 使输入输出信息尽量匹配 , 来解决这个问题) 。
可变信息适配器(VarianceAdaptor)
可变信息适配器如图1(b)所示 , 包含了多种可变信息的预测器 。 在本工作中引入了时长预测器、音高预测器和能量预测器 。 在训练时 , 模型直接使用可变信息的真实值 , 与编码器的输出融合 , 作为解码器的输入 , 同时训练预测器使其拟合真实的可变信息 。 在推理阶段 , 模型使用预测器预测的可变信息 。
推荐阅读
- 科技一哥|荣耀30青春版图集赏析:触觉与视觉的完美享受
- 科技犬君|vs 索尼A9G 谁强?,上半年用户喜爱手机盘点;小米电视大师65英寸OLED
- 精选泛科技|结果如何?,一加8续航遭质疑:上半年最全机型横评出炉
- 科技犬君上半年用户喜爱手机盘点;小米电视大师65英寸OLED vs 索尼A9G 谁强?
- 科技生活快报TB5000mAh大电池还有65W超级快充!这些手机让你摆脱充电焦虑
- 精选泛科技一加8续航遭质疑:上半年最全机型横评出炉,结果如何?
- 阿拉图图科技说三星新机口碑虽好,但中国市场销量翻车,用户几乎跑光!
- 华为Mate30美科技界:华为再强大也只是一家民企,我们究竟在怕什么?
- 行业|高增长+高回撤!请收好这份“补票”名单,11只核心资产股入围,百亿科技股已跌出“深坑”
- 阿拉图图科技说 给做了!,雷军服不服?苹果要把雷军敢说不敢做的事情
