互联网AI产品经理需要了解的智能语音知识:上下文的对话管理

【互联网AI产品经理需要了解的智能语音知识:上下文的对话管理】
编辑导读:随着人工智能的发展 , 市面上出现了很多智能产品 , 它们的核心是希望解放人 , 用机器来帮助完成简单的工作 。 其中 , 智能语音是最常用到的应用之一 。 本文梳理了一些AI产品经理需要了解的智能语音知识 , 与你分享 。
互联网AI产品经理需要了解的智能语音知识:上下文的对话管理
本文插图
智能产品经过几年的打磨 , 从开始简单的天气查询 , 播放歌曲 , 到去年前年的家庭、车内IOT设备互联 , 直到今年火爆的AI生活服务 。
整个演变的过程 , 不仅仅说明了技术的革新 , 也逐渐说明用户对新功能的期待 , 以及对智能产品表现出来的更大接受度和包容度 。 智能语音从简单的单轮指令性操作 , 逐渐演变成可以进行多次的连续对话 , 甚至有些问题似乎可以匹配人类的聪明回复 。
1. 智能语音的整个交互流程
主要有以下几个步骤:
互联网AI产品经理需要了解的智能语音知识:上下文的对话管理
本文插图
听清:用户说一句话 , 机器先把用户的语音转变成文字 , 让机器读懂用户具体说了什么 。
听懂:包括意图识别和任务分发 , 主要是自然语言理解技术 , 包含nli和nlp的技术实现 。 让机器明白用户到底是说了什么 。

  • 意图识别:用户说话的意图:要结合当前的用户使用情景 , 服务场景 , 硬件环境 , 机器会按听懂的内容 , 给出一个N-bestlist , 按权重进行排序 。
  • 意图分发:拿到N-bestlist上面排位最靠前的意图 , 去请求指定的domain数据并执行任务 。
渲染界面:用户听到机器的TTS回复 , 以及GUI的页面呈现内容 。
这其中第二步就是对话管理 , 主要完成对话状态的维护(dialog state tracing,DST) , 生成系统决策(dialog policy) , 作为接口与人物模型进行匹配、提供语义表达的期望值(expections for interpretation)、分发任务记录当前queryID和pageID 。 当前是用户的一次对话需要经历的全部流程 , 如果需要多次的对话 , 就要不断的维护对话栈 , 并且对话栈要匹配当前的pageID , 才能帮助用户经历多次跳转都能到达预期的页面 , 所以多轮交互更加复杂和难以掌控 , 本文具体介绍多伦交互如何在产品上的实现 , 和当前存在的技术问题 , 以及产品如何规避技术问
2. 多轮交互的三种产品形态
「问题补充」
定义说明:需要用户填补确定槽位信息以后 , 才能让机器明白用户的当下的真实需求 , 同事 , 机器基于用户的多次槽位回复找到相对应的nli , 并且给出用户需要的结果 。 槽位的集合 , 定义了需要用户提供哪些信息 。
应用场景:主要应用在一次对话不能让机器明白用户的意图 , 需要进行多次对话 , 机器拿到固定的多次结果后才能给出结果 , 主要应用在多步骤的同类型任务中 。
互联网AI产品经理需要了解的智能语音知识:上下文的对话管理
本文插图
以上例子可以看出来 , 只有用户说了最后一句话 , 电话才能打通 。 这期间经历了【遍历电话本】-【nli匹配用户名称】-【提取结果】-【上下文管理】-【指代上文的第几个】-【拨打电话】基于上文内容 , 经过几个步骤才能完成打电话功能 。
「搜索&筛选」
定义说明:用户需要进一步缩小自己的搜索选择范围 , 经过多次筛选和多个上文条件的累加 , 才可以让机器找到当前用户需要的结果 。
应用场景:多伦筛选和搜索 , 是用户区别与手机APP交互的主要应用场景 。 界面的筛选只能做到 , 单条件的筛选 , 想要附加其他条件 , 或同类型服务对比 , 需要GUI操作或者打开新的APP重新选择 。 整个流程相对繁杂 。 语音解决了用户重新选择 , 点击界面的操作步骤 。 用户可以先看一下机票 , 如果不满意立刻切换火车票 , 如果还不满意 , 再返回机票 , 机票也可以进行多次的筛选选择出自己需要的机票信息 。


推荐阅读