猎云网|天猫精灵资深技术专家王浩:AIoT时代,从语音交互提升到多模态融合交互( 二 )
在过去一两年努力当中 , 在用户接受、允许情况下 , 用户可以去注册自己的声纹 。 以后用户跟天猫精灵说话 , 天猫精灵可以识别这个用户是谁 。 比如一个小孩不开心了 , 天猫精灵可以给他讲一个比较好玩儿的故事;如果是大人不开心了 , 天猫精灵可以给他讲一些鸡汤人生哲学 。 这块我们也做出了一些成果 , 比如三口之家里爸爸、妈妈和小孩 , 谁在跟天猫精灵说话 , 它都可以判断出来 。
传统方法是先语音识别 , 然后做语义理解 , 然后做执行 。 我们现在采用的是端到端的方法——语音语义一体化 。 以前人机交互方法是先转化为文本 , 文本进行自然语言理解然后执行 。 现在我们采用跟真人非常相似的方式 , 人机交互过程当中靠语音去执行就行 。 比如我们交流 , 并不需要再把我的话翻译成一个文字 , 然后看到文字再理解 , 而是通过语音直接理解 , 然后去执行 。
整个过去一年 , 我们通过语音语义一体化 , 大幅提升了天猫精灵在用户语义理解方面的能力 。
其次是天猫精灵家庭助手—说:语音合成技术 , 就是将文本转化为语音的技术 。 有点类似于人的嘴巴一样 , 可以有不同的声音 , 天猫精灵有自己的声音 , 也可以根据用户定制化 , 这里并不是录制的 , 而是根据任何文本能动态的读出来 。
我们今年把传统的统计模型转化为深度的语言合成模型 , 主要有三个模块:前端自然语言处理、升学模型和声码器 。 通过对比我们可以发现 , 在传统方法里 , 机器的感觉还是非常重 , 现在我们加入拟人效果之后 , 天猫精灵声音更接近真人 , 这部分我们做了很大的突破和提升 。
最后是天猫精灵家庭助手—看:今天不用介绍人脸技术了 , 大家很熟悉人脸识别的AI技术 。 “看”的技术 , 我们今天看一看小孩手指点读的功能 , 我们希望它能看到你的手指在点课本 , 相当于家长在辅导孩子 。 以前是家长给孩子来读课本 , 现在我们希望通过机器替代家长承担的这部分压力 , 机器帮小孩去读 。 这样的话 , 相当于孩子在课本上想读什么就可以自己来学习 。
我们刚才已经提到了 , 语音可以进行操控 , 但有的时候点个赞 , 或者我是操控往左往右 , 只要天猫精灵看到你的动作之后 , 它自然也会知道了你下达的指令 , 除了语音交互说停止之外 , 你可以攥个拳头也是停止 。 这块相当于在手势识别 , 包括本身的点读识别之外 , 我们也进行了更好的突破 , 未来去给用户更好的体验 。 这里可以看到我们工程师在测试 , 这是天猫精灵眼睛里面看到的用户 , 它在领悟用户的一些指令信息 。
本文插图
我们今年主要从语音交互提升到多模态融合交互 。 什么叫多模态 , 就是说除了有语音 , 比如说中间是一种语音的交互 , 上面是一个视频的交互 , 因为它看到你 , 它能听到你 , 还有一个文本的交互 。 它现在可以一边看书 , 一边听 , 一边说 , 这是一个真实的人在现实生活当中一个多模态的交互的过程 。 我们目标就是打造这种拟人的、跟真实人类一样的助手能力 , 来帮助用户解决问题 。
我们与其他会刚刚发布的智能音箱 , 加载了多模态交互全新的智慧全场景 。
这里我们还是有一个使命 , 马老师说让天下人没有难做的生意 , 我们天猫精灵拆解来说 , 希望每个家庭都有一个天猫精灵助手 。 我们希望在未来AIoT、5G时代下 , 在设备的连接和控制上 , 我们希望也能有各种服务 。 5G时代互联网是什么 , 我们希望重新定义——以AI技术为核心 , 以家为中心 , 打破设备和场景的边界 。 大家知道以前设备都是比较孤立的 , 我们希望通过天猫精灵能连通这些所有的设备 , 包括跟设备和人 , 这才是一个真正的IoT时代 。 我们希望打造跨领域场景化的“懂你的家庭助手” 。
推荐阅读
- 乐居财经家居|成交额地板行业第一,大自然地板天猫双11夺下销售五连冠
- 新华家居|红星美凯龙成天猫今年双11最强合作伙伴
- CBO化妆品财经在线|天猫、全网美妆销售榜单来了!谁在欢喜谁在忧愁?| 混战双十一
- 家装评测|双十一天猫家装品类第一名,3.8亿收官!
- 教育|在线教育是伪命题?
- 产业带|105个产业带“天猫双11”成交额过亿 助力双循环经济发展
- |山西省天猫双11狂欢季交易额92.3亿元
- 互联网|天猫双11商家服务咨询量超25亿
- 苏宁|474个品牌在天猫双11成交额突破1亿元;PP体育与华为视频达成深度合作;腾讯第三季度净利润
- 天猫|双十一天猫京东成交额已超7000亿!2020双十一成绩单创历史新高!
