科大讯飞|从60%到85%,科大讯飞是怎么做到的?( 二 )


像我们的语音合成的发展方向 , 同样不能只以单纯的追求自然度MOS分为目标 , 而是要追求用户可以感知的 , 同时技术可以实现的更高表现力的呈现 。 这里我们也可以通过从文本内容当中挖掘到角色、情感等更深层的信息 。 通过刚才说的音乐音效等听感的提升 , 以及我们多模态这样更具表现力的呈现来实现 。
对应于语音识别的全场景音频解析 , 我们认为语音合成也需要实现从语音到声音的全场景音频合成 。 去年1024发布会上 , 我们在车载场景下使用我们的环绕音效 , 提升了用户听感的效果 。 今年我们又进一步进行了拓展 , 一方面 , 我们可以基于自然语言理解技术 , 从文本当中分析到合适的情感焦点以及我们角色相关的信息 , 并通过语音呈现出来 , 进一步结合我们针对一些特殊情况打造的背景音乐 , 从而呈现出一场全局的音频、全场的一个合成 。 这里我们也是以一个交互场景为例子 , 来看一下我们这样一个听感提升的效果 , 请放视频 。
我们可以看到在这个例子当中 , 一方面它通过对内容的理解 , 实现一人分饰多角和情感的变化 。 另外一方面它能通过对场景的理解 , 当知道用户累的时候 , 可以主动的去推送这样一些舒缓的音乐和音效 。 这一解决方案除了在交互场景 , 在小说合成、配音合成等场景也大有可为 。
另外我们知道情感的表达、合成和预测也是我们语音合成当中的一个重要的方向 , 也是业界的研究热点 。 但是现在我们看到业界的情感语音合成一般是输入一句文本 , 并指定一种情感 , 然后输出一段饱含情感的语音 。
但我们想一下 , 在人与人沟通过程当中 , 其实情感的表达并不是这么全局化、单一化的 , 而是有一些细微的变化情况 。 我们的机器合成常被人们诟病 , 说这个声音没有人情味的一个表现 。
针对这样一个问题 , 我们也是从单一的情感合成升级到面向交互场景的这样一个微情绪合成的方案 。 该方案也是基于我们刚才说的 , 通过听感量化的编码 , 来对我们多种情感进行组合式编码 , 以实现我们对局部一些情感的准确的预测和控制 。 在有了这样一个方案之后 , 我们再结合情绪识别等其他的方案 , 就可以在交互当中体现出一些细微的情感变化 , 让我们的用户用不同的语气说话的时候 , 可以得到一些不同的反馈 , 让我们整个的交互过程变得更加有趣 , 更加有人情味 。
虚拟形象
接下来我们来看一下多模态合成 , 也就是虚拟形象 。 我们在去年发布了全球首个多语种虚拟主播小晴 , 大家也非常熟悉了 。 今年我们也是陆续发布了更多的虚拟主播 , 并在多家媒体使用 。
今年我们为小晴进一步研发了表情生成、动作生成等技术 , 同时结合我们生活化场景的设计进一步的优化 , 让我们的小晴具备了交互的能力 。 当我们虚拟形象具备更好的交互能力之后 , 再结合我们在一些场景的静态和动态内容的嵌入 , 我们就有可能形成一些更加有意思的现象 。
例如我们在学习机里面 , 基于我们的虚拟形象技术、结合我们的语音评测等技术 , 我们设计了一个可以实时互动的英文主播的教学 , 让整个英文的教学变得特别有趣 。 我们也来看一下演示的视频 。 这里面所有的内容都是合成出来的 。 未来我们也非常欢迎各位合作伙伴可以想一下在我们各自场景有没有什么样的需求 , 可以用我们的这样一些虚拟形象的技术 , 让大家在一些场景当中交互变得更加有意思 。
行业认知智能
我们知道认知智能相对于以上语音图像等感知智能其实难度更大 。 在过去几年 , 讯飞在向教育、医疗、政法等行业的认知智能取得了不错的进展 。 以医疗认知为例 , 我们在2017年11月份 , 医考机器人以456的高分通过了国家职业医师资格考试 。
在接下来的时间里面 , 我们基于领先的核心技术 , 深入到医疗辅诊的各个核心的刚需场景 , 去解决实际问题 , 推出了我们的智医助理的产品 , 并结合我们的各个场景、各个的数据去进行迭代的优化 , 花了大概两年左右的时间 , 实现了从核心技术到应用落地、再到大规模价值兑现的过程 。
具体来看 , 我们可以看到在智能分诊、病历、质检等医生看病的核心场景 , 我们的核心指标有了大幅度的进步 。 我们针对基层医疗机构的复诊合理率从70%提高到90%以上 。 同时我们相应的产品成果也在全国11个多省100多个区县 , 形成了大规模落地的根据地和案例 , 相关的复诊次数使用超过8000万次 。
同时 , 我们还在多个行业持续取得新的进展 , 例如在教育 , 我们今年全面升级了面向多个学科的以人推题的方案 , 满意率超过95% 。 我们在政法行业的刑事辅助判案系统 , 也向民商事去拓展 , 节省了20%以上的人力 。 我们面向金融领域的要素审核 , 准确率达到95%以上 , 审核效率提高30% 。
我想行业认知智能之所以能持续的突破 , 既依赖于我们核心技术的持续提升 , 也依赖于我们对行业理解 , 以及在此过程当中经验和数据的积累 。
通用知识技术提升方面 , 我们除了机器阅读理解的权威评测SQUAD任务当中持续取得突破 , 今年也在难度更大的多部推理机器阅读理解和综合评测能力的GLUE任务上取得了突破 。


推荐阅读