【深度学习】Neural Response Generation——关于回复生成工作的一些总结( 二 )
二、相关模型介绍在这一部分 , 将介绍对话生成中的一些模型 , 笔者的重点在于阐述每个模型想要解决的问题以及模型的创新性 , 实际上每个模型都在实验中取得了很好的效果 , 但对于实验部分不做任何的描述 , 如果有对实验感兴趣的读者可以在参考文献中前往原文阅读 。 之后介绍的模型按照解决的问题主要分为三大类:第一类是解决如何生成回复 , 第二类是解决如何生成更有质量的回复 , 第三类则是带有上下文的对话以及自动写诗等相关模型 。
1、如何生成回复
1.1 NRM(Neural Responding Machine)[4]
该模型是李航老师组在ACL15上提出的 。 其模型结构如下图:
本文插图
图3:NRM模型结构
这篇文章的动机是将Seq2seq模型这种Encoder-Decoder的框架引入到短文本对话问题中 , 其对比的模型是统计机器翻译模型(SMT-based)和检索式模型 。 图中的左侧部分是Encoder , 右侧部分是Decoder , 可以看出 , 其使用了两种Encoder , 即global encoder和local encoder 。 结合背景部分的介绍不难发现 , 这里的global encoder即是普通的RNN模型 , 用其最后一个时刻的输出 。 而local encoder则是一个引入了Attention的RNN模型 。 这里 , 作者将这两种RNN模型进行了结合 , 方法是将global encoder最后一个时刻的输出分别与local encoder中的输出进行拼接 , 再将Attention应用于拼接得到的向量上 。 这样做的考虑是 , global encoder只使用最后一个时刻的输出 , 得到的向量是对整个句子的一种概括 , 可以说是比较偏向全局信息的一种编码 。 单单从这种编码里解码出所有的信息会比较难 。 而local encoder则很好的弥补了这一点 , 通过Attention机制的引入 , 让局部信息也能够得以使用 。 论文中也分别对单独使用global encoder和local encoder以及混合使用两种encoder的模型进行了比较 , 得出的结论是同时使用这两种encoder , 生成的结果会更好 。 而相比于检索式模型和统计翻译模型 , 生成式模型取得了更好的效果 。
1.2 DCGM-I 和 DCGM-II(Dynamic-Context Generative Model)[5]
该模型与上文模型所解决的问题以及使用的数据集的构造都有所不同 。 该模型试图解决在给定一个上下文信息的情况下 , 对话的生成问题 , 所以其使用的数据集是三元组的形式 , 包含一个上下文 , 一个信息 , 以及一个回复 。
本文插图
【【深度学习】Neural Response Generation——关于回复生成工作的一些总结】
图4:三元组数据集
这两个模型的结构示意图如下:
本文插图
图5:DCGM-I和DCGM-II模型结构
图中所示的是Decoder端的情况 , 解码时 , 每个时刻DCGM-I使用一个矩阵与上一时刻使用的向量进行相乘 , 作为当前时刻生成所使用的向量 。 这实际上与RNN的循环结构有些类似 , 但并没有直接使用RNN作为Encoder 。 在DCGM-I中 ,b 表示一个0-1向量 , 其中在context和message中出现过单词的位置都是1 , 其余为0 。 在初始时刻 , 使用 W 与 b 相乘 , 得到初始时刻使用的向量 , 与隐含层状态一起生成初始时刻的单词 。 而在后续时刻 , 分别使用 W 与上一时刻使用的生成向量相乘得到第i时刻使用的向量 , 再与隐含层状态一起生成该时刻的单词 。 而DCGM-II则稍微出现了变化 , 并没有将context和message的信息一开始就融合成为一个 b向量而是分别作为两个向量与 W 相乘 , 之后再进行拼接操作 , 使用该拼接得到的向量循环运算并送往下个时刻生成单词 。 该模型的一大特点是没有使用RNN作为Encoder , 即没有将上文编码为固定长度的向量 , 而是在Decoder每个时刻生成时 , 不断将上文(包含context和message)的信息重新计算作为该时刻的输入进行生成工作 。 这样做的好处是每个时刻生成用到的输入信息是不同的 , 但又与上文信息息息相关 。
推荐阅读
- 小虔科技|华为和小米都曾经学习苹果3D面部识别,为啥现在不用了
- 砍柴网|讯飞智能学习机 618 新惊喜,多重优惠助力孩子暑假弯道超车
- 新智元|B站上线!DeepMind加UCL强强联手推出深度学习与强化学习进阶课程(附视频)
- 互联网生活|不一般!世童科技品牌启动暨智能学习桌新品发布会惊艳中山
- 月龙科技|LDS激光导航,精准技术安全可靠,美的扫地机人M7更深度体验
- 新智元|机器学习团队常用工具总结,人生苦短,我用Python!
- 工具机器学习团队常用工具总结,人生苦短,我用Python!
- 老牛牛和你聊数码|一加8 Pro 40天深度体验:系统流畅不简陋,综合体验很舒服
- 映维网VRTB|深度分享:MR交互设计之“原则篇”
- 世童AI智能学习桌|世童科技品牌暨智能学习桌新品发布会惊艳中山
