模范爸爸|| CCF-GAIR 2020，中国科学技术大学副教授凌震华：基于表征解耦的非平行语料话者转换( 三 ) 雷锋网按：2020年8月7日至9日

另外，这样的帧到帧映射模型不能转换时长。而实际情况是有的人说话比较快，有的人说话比较慢，怎么把说话人的语速特点体现出来呢？
这是我们设计的模型结构。模型输入除了从源说话人语音中提取的声学特征序列外，还拼接了利用语音识别声学模型提取的文本相关特征，以协助序列对齐。模型输出就是从目标说话人平行语句中提取的声学特征序列。其中输出与输入序列长度并不一致。
以下是实验结果。图中横坐标是真实目标说话人语音的时长，纵坐标是转换后的语音时长。如果语音转换模型有比较好的时长调整效果，那么数据点应该落在对角线上。图中绿色点所示的是传统逐帧转换方法的结果，从中可以看出源与目标发音人之间显著的语速差异。红色点对应的是所提出的序列到序列语音转换方法，可以看出其取得了良好的时长转换效果。
已有的非平行语料语音转换大体上有两个思路：
基于非平行数据构造平行数据。构造方法包括语音合成、帧挑选等。 CycleGAN神经网络模型也可以归入此类方法。
分离语音中的文本与话者表征。包括利用语音识别器提取音素后验概率(PPG)的方法，以及基于自编码器与变分自编码器的方法等。

模范爸爸|| CCF-GAIR 2020，中国科学技术大学副教授凌震华：基于表征解耦的非平行语料话者转换( 三 )

推荐阅读

还要|故宫大门上为什么会有许多“疙瘩”？还要用玻璃罩起来？

哪些人不宜食用琼脂？琼脂的副作用有哪些?

联想|不管退休还是辞职，接受这三个潜规则，别弄丢了自己的人品

青春痘变成突出硬疙瘩

张文龙|不单纯的皮筋

总觉得心里少了点啥，生活很空虚是咋回事

如何远程控制电脑？

肝病患者可适当饮用绿茶

[华为天才少年最高年薪201万元]华为天才少年最高年薪201万元全球仅4人

孔雀东南飞被誉为我国诗歌史上的

胖虎看西游|梦幻西游：王多多打成11红净台+须弥画魂，为什么青花瓷这么贵？

张艺谋@为什么张艺谋不娶巩俐，而娶了小他31岁的陈婷？

科技日报|发展工业互联网需技术与应用两手抓

[宝宝屁屁红]春天宝宝易得红屁屁妈妈该如何防治

胸口岔气疼!胸口捞到底是什么？

|好玉都太贵买不起？这几种都是名玉，关键价格还亲民！

「荣耀美食」想要不粘不坨有妙招，详细步骤和讲解，一看就学会，炒面时

个人医保信息怎么查？这份“掌上查询”攻略请收好

女性内衣尺码大小怎么看文胸尺码对照表

女神穿搭啊|就选什么裤子！今夏这么穿，清凉舒适又显腿瘦胯小，什么腿型