猎云网|天猫精灵资深技术专家王浩:AIoT时代,从语音交互提升到多模态融合交互


猎云网|天猫精灵资深技术专家王浩:AIoT时代,从语音交互提升到多模态融合交互
本文插图
【猎云网北京】10月16日报道
10月16日 , 在FUS猎云网2020年度人工智能产业峰会上 , 阿里巴巴天猫精灵事业部人工智能资深技术专家王浩受邀发表《懂你的家庭助手——AIoT时代无处不在的人机交互入口》的主题演讲 , 他表示 , 交互体验从传统的机械交互到触屏交互 , 再发展到现在的语音交互阶段 。 天猫精灵今年将重点从语音交互升级到多模态交互 , 从无屏的智能助手变成带屏的智能助手 。
“原来天猫精灵只是有耳朵、有嘴 , 它能听、能说 , 现在我们给它加了一个眼睛 , 它还能看到 。 我们希望天猫精灵达到跟真实人类一样的助手能力 , 来帮助用户解决问题 。 ”王浩说 。 此外 , 他表示 , 在家庭场景里 , 过往设备大都比较孤立 , 未来在AIoT和5G时代下 , 希望每个家庭都能通过一个天猫精灵助手 , 以AI技术为核心 , 去联通所有设备 , 包括连接设备和人 , 这才是一个真正的IoT时代 。
今年年初 , 阿里巴巴宣布将人工智能实验室天猫精灵业务升级为独立事业部 , 由阿里云IoT负责人库伟负责 。 2016年 , 阿里云内部孵化人工智能实验室 , 并在2017年7月正式对外推出智能音箱品牌“天猫精灵” , 凭借着先发优势和阿里巴巴平台资源等 , “天猫精灵”一经推出就受到广泛关注 , 并多次在销量中位列第一 。
10月16日 , FUS猎云网2020年度人工智能产业峰会在北京金茂万丽酒店隆重举行 , 近百位知名资本大咖 , 独角兽创始人、创业风云人物及近千位创业者共聚一堂 。
本次峰会由猎云网主办 , 猎云资本、企业管家、猎云财经、锐视角协办 。 峰会以“AI UP!”为主题 , 聚焦人工智能产业的应用 , 通过展示多领域多维度人工智能技术和产品以及分享讨论AI在不同场景中最新落地应用 , 展现人工智能产业落地应用的最新成就;并围绕人工智能产业的“进击”与“破圈” , 探讨AI技术如何为产业赋能 。
以下为王浩演讲实录 , 猎云网整理删改: 现在 , 阿里巴巴菲住布渴酒店不断吸引着国内外游客去打卡 。 在酒店 , 你会体验到另一个网红产品——天猫精灵 , 这个语音交互助手可以帮你去做你想要做的事情 。
我们一直在思考下一代交互入口是什么?大家知道每个人的智能手机是触屏时代 , 触屏交互改变了传统的机械交互 , 比如说键盘、鼠标 , 包括用遥控控制电视 , 还有用洗衣机原来是按键式 , 微波炉也是按键式的 , 现在这些都已经是触屏式 。 再往下走 , 就是另一个交互体验——语音交互 , 比如现在天很冷 , 你打开灯 , 打开空调就是随手说一句 , 自然有设备帮你把这个事情做了 。
今天 , 天猫精灵从无屏的智能助手到带屏的智能助手 , 原来它只是有耳朵、有嘴 , 它能听、能说 , 现在我们给助手加了一个眼睛 , 它还能看到 。
【猎云网|天猫精灵资深技术专家王浩:AIoT时代,从语音交互提升到多模态融合交互】这里想跟大家继续分享的是我们一直在打造的天猫精灵家庭助手 , 大家知道它是一个虚拟的机器人 , 我们希望它具备人同样的能力 ,
先介绍刚刚发布的三款带屏音响 , 还有更多 , 我只是列出来三款 。 这里给天猫精灵加了一个眼睛 , 能够更清晰的看到用户想要什么 , 相当于视觉操控 。 天猫精灵家庭助手在“听”、“说”和“看”三方面都进行了提升 。
猎云网|天猫精灵资深技术专家王浩:AIoT时代,从语音交互提升到多模态融合交互
本文插图
首先是天猫精灵家庭助手——听:可以称为“闻声识人”功能 , 在过去的传统方法里 , 一个用户语音跟天猫精灵说话 , 天猫精灵听到之后 , 我们采用的是声学模型和语言模型 。 在这里也给大家普及一个概念——语音识别 , 就是把声音转化为文字的一个技术 , 我们经常叫做ASR , 这是英文缩写的结果 。 今年我们采用了与谷歌同样的端到端深度语音识别模型 , 大幅提升了天猫精灵在听用户下达指令的时候不出错的状态 。


推荐阅读