另外 , 这样的帧到帧映射模型不能转换时长 。 而实际情况是有的人说话比较快 , 有的人说话比较慢 , 怎么把说话人的语速特点体现出来呢?
这是我们设计的模型结构 。 模型输入除了从源说话人语音中提取的声学特征序列外 , 还拼接了利用语音识别声学模型提取的文本相关特征 , 以协助序列对齐 。 模型输出就是从目标说话人平行语句中提取的声学特征序列 。 其中输出与输入序列长度并不一致 。
以下是实验结果 。 图中横坐标是真实目标说话人语音的时长 , 纵坐标是转换后的语音时长 。 如果语音转换模型有比较好的时长调整效果 , 那么数据点应该落在对角线上 。 图中绿色点所示的是传统逐帧转换方法的结果 , 从中可以看出源与目标发音人之间显著的语速差异 。 红色点对应的是所提出的序列到序列语音转换方法 , 可以看出其取得了良好的时长转换效果 。
已有的非平行语料语音转换大体上有两个思路:
基于非平行数据构造平行数据 。 构造方法包括语音合成、帧挑选等 。 CycleGAN神经网络模型也可以归入此类方法 。
分离语音中的文本与话者表征 。 包括利用语音识别器提取音素后验概率(PPG)的方法 , 以及基于自编码器与变分自编码器的方法等 。
推荐阅读
-
-
-
许昕|绝对大翻盘!许昕孙颖莎4-3逆转超级黑马,进4强仍被央视解说批评
-
科技圈|卖19999元红米可能还不挣钱,亏本打广告!,小米合伙人爆料
-
实锤社|女明星高秋梓被打崩溃自闭!绝望大喊:太难玩了,QQ明星赛出事故
-
##张文宏谈新冠疫苗: 前期进展快 3期临床研究失去机会
-
误入武汉大连小伙客串电视剧究竟怎么回事?误入武汉大连小伙客串电视剧背后的真相
-
手机大魔王▲网友表示3499元不能再多了,魅族17携90HZ、骁龙865开售
-
-
-
小花聊美食■美食精选:香菇韭菜、烧排骨、角瓜鸡蛋、开口笑
-
-
DYG|DYG回归三线优势阵容,久诚元歌单杀暴风锐,giao成了五号位
-
烤箱烤吐司温度时间多少合适 烤箱烤吐司温度时间多少
-
黑产曝光!你扔掉的快递面单,被明码标价售卖!犯罪团伙“卧底”快递公司,有人一天“赚”超300元...
-
明朝被李自成打败的还是清朝打败的 李自成与清军大战为何大败
-
-
郭碧婷爸爸美食招待向佐|给半子!郭碧婷爸爸美食招待向佐心情大好 翁婿感情十分融洽
-
-
第一财经|11月第一周“风起云涌” 投资者如何接招?