|全球对话技术顶赛落幕,百度NLP开源PLATO-2获四项冠军( 二 )


Task 1: End-to-end Multi-domain Task Completion Dialog
Task 2: Cross-lingual Multi-domain Dialog State Tracking
百度参与了子任务 1 , 并在最终的人工评估中 , 与另外一个团队并列第一 。 基于 PLATO-2 第一阶段模型 , 百度在该跨领域任务对话上进行了 Fine-tuning , 模型可以端到端的生成对话状态、对话动作以及高质回复 。
|全球对话技术顶赛落幕,百度NLP开源PLATO-2获四项冠军
本文插图

子任务 1 评估中 , 考虑了宽松和严格 2 种场景下的任务成功率:对于宽松评估(Success Rate w/o DB Grounding) , 众包人员跟系统交互 , 然后标注任务是否成功 , 该过程中不会审核系统的回复是否跟数据库信息冲突;对于严格评估(Success Rate w/ DB Grounding) , 针对众包人员标注任务成功的对话 , 会进一步审核系统回复是否跟数据库信息匹配 , 只有 2 个条件都满足才算任务成功 。 宽松评估的区分度相对较弱 , 排名在前几位的方法差距较小;而严格评估则具有较强的区分度 , 且更能反映真实场景的性能 , 百度在该指标下排名第一 , 显著超越了其他系统 。 最终的榜单为宽松和严格评估的均值 , 百度和另外一个团队并列第一 。
Track-3: Interactive Evaluation of Dialog
相比于前两个赛道 , Track 3 更接近开放域对话问题 。 它的特点是对于聊天的范围不设限制 , 也没有明确目标 , 以能和人类进行自由、有趣的交流为目的 。 对于开放域对话 , 常用的评估方式有 2 种:静态评估以及交互评估 。 该赛道共有 2 个子任务 , 分别涉及知识对话的静态评估和开放域闲聊的人机交互评估:
Task 1: Static Evaluation of Dialog
Task 2: Interactive Evaluation of Dialog
在子任务 1 中 , 系统需要围绕话题进行回复生成 , 通过自动的选取知识和生成回复 , 可以跟用户就给定话题进行深入探讨 。 在子任务 1 的榜单中 , 百度 PLATO-2 模型排名第一 。
|全球对话技术顶赛落幕,百度NLP开源PLATO-2获四项冠军
本文插图

在子任务 1 中 , 系统需要针对给定的对话上文产出回复 。 在评估中 , 众包人员会从流畅性、相关性、准确度、参与度等 8 个方面对回复进行打分 , 并给出整体得分 。 榜单上 , 有 3 组模型的结果比较接近 , 最终并列头名 , 据悉前 2 组结果为百度提交的不同参数设置下的 PLATO-2 模型 。 因为 PLATO-2 已经开源 , 其他团队也有使用 PLATO-2 进行再训练提交结果 。
在子任务 2 中 , 用户可以就任何话题进行聊天 , 系统需要精准理解用户 , 并产生连贯、有趣且有信息量的回复 , 这是当前对话技术最具挑战性的方向 。 在子任务 2 交互评估的榜单中 , 百度再次排名第一 。
|全球对话技术顶赛落幕,百度NLP开源PLATO-2获四项冠军
本文插图

在子任务 2 中 , 互联网上的真实用户被邀请与机器人进行闲聊 , 且对话的内容和方向不设限制 , 以反映真实应用场景下对话系统的效果 。 收集到的人机交互对话会分发给众包人员进行评估 , 评估指标包括逻辑一致性、回复多样性、话题深度等 10 个方面 , 综合考量后给出整体得分 。 该子任务致力于评估开放域的人机交互效果 , 而这恰恰是 PLATO-2 的擅长之处 。 最终结果显示 , 该榜单前 2 名均被百度包揽 , 其中百度开源的 PLATO-2 模型排名第一 。
在人机交互对话收集时 , 用户会被提前告知对方是机器人 , 因为 PLATO-2 表现比较优异 , 很多用户不禁询问系统到底是人类 , 还是机器人?不可否认 , 当前的对话系统在一些方面较人类水平尚有差距 , 但这些真实的人机交互记录显示 , 人工智能又朝着突破图灵测试迈进了坚实的一步 。 随着技术不断演进 , 智能对话未来的能力越发值得期待 。


推荐阅读