【深度学习】Neural Response Generation——关于回复生成工作的一些总结 |许嵩|跳槽那些事

一、背景1、两类方法
如前言所述，目前解决对话问题的方法是基于检索式的和基于生成式的两种。就检索式方法而言，其致力于建立模型刻画对话中的上文和下文之间的对应关系，通常的做法是先利用检索系统以对话上文为输入，得到一定数量的下文候选集，再对上下文进行大量的特征抽取，然后训练排序模型（Learning to rank）对候选集进行重排。由于这些对话都是数据集中真实存在的，所以检索式方法最终返回的结果在语言流畅性、语法正确性上有极高的保证，但由于数据集本身大小的限制，面对一个新的用户输入，可能无法得到一些合适的候选回复，从而无法做出合适的回答。
而生成式方法则不同，借助于深度学习的相关研究，模型可以对对话本身进行学习，从而在面对用户输入时，生成新的回复。生成式方法大多使用的是Seq2seq的模型框架，即将对话的上下文看作两个序列，通过对上文序列进行编码，再解码出下文。借助于GAN和VAE等生成式模型的研究，有学者将其应用于对话系统，也取得了较好的效果。
2、基础模型
本文之后介绍的论文及模型大多以Seq2seq模型为基础，配合以注意力机制（Attention Mechanism），在此进行一些简单的介绍。
备注：本小节参考了李军毅在RUC智能情报站专栏中《从文本生成看Seq2Seq模型》一文，若想对Seq2seq模型有进一步了解可移步从文本生成看Seq2Seq模型。
2.1 Seq2seq模型
该模型基本结构如下：

本文插图

图1：Seq2seq模型的基本结构
该图摘自Google2015年在ICML Deep Learning Workshop[1] ，如图所示， Seq2seq模型主要分为两个模块：编码模块（Encoder ，图中Context部分）和解码模块（Decoder ，图中Reply部分）。这两个模块通常使用RNN（包括LSTM和GRU）来实现。编码模块的作用是将对话的上文编码成固定长度的向量，而解码器的作用是利用该向量解码出对话的下文。图中ABC为上文句子中的三个单词，经过编码器编码后送入解码器中。解码器的第一个输入通常是一个开始标识符（或上文的结束符，即图中的），然后逐个生成下文的单词WXYZ 。
这里需要注意的是， Seq2seq模型中的解码器在训练和预测阶段不太一样。在训练阶段，我们同时使用对话的上下文， Decoder每个时刻的输入都是我们给定的下文，利用每个时刻的输出与给定下文的不同来计算损失（loss），再用反向传播的方法对模型进行训练。但在预测阶段，我们希望给出上文让模型来生成下文，所以Decoder每个时刻的输入都是它自身上个时刻的输出（除了第一个开始标识符）。
2.2 注意力机制（Attention Mechanism）
从图中也可以看到， Decoder实际上只接受了Encoder传来的一个固定大小的向量，一个很自然的想法是，这唯一一个向量是否真的能编码上文的所有信息，这时，我们就需要介绍一下注意力机制。
这里十分推荐关于Attention Mechanism的两大经典论文，即Bahdanau Attention[2]和Luong Attention[3] 。这里我们用Bahdanau Attention来介绍一下Attention的基本思想。

本文插图

图2：Bahdanau Attention
该图的下半部分实际上是Encoder（这里用的是双向RNN），而上半部分则是Decoder（只画了两个时刻）。可以看到， Decoder端在每个时刻生成输出时，不再只使用Encoder最后一个时刻的输出了，即这种方法打破了Encoder只能传一个固定长度向量的限制。 Decoder实际上可以获得Encoder每个时刻的信息，通过每个时刻的信息加权求和得到的向量来进行解码。这样做的一大好处是，对每个时刻而言，可以使用的信息是不同的。这也非常符合直观感觉，在对话中，我们回答中的每个词肯定都是和上文中的部分词相关的， Attention即是这种相关性的一种体现。

【深度学习】Neural Response Generation——关于回复生成工作的一些总结

推荐阅读

趣观历史朝鲜战争中，美国6万大军打不过志愿军3个，美国人至今都想不明白

新华网|【锐评天下】看！这款“蓬佩奥”牌谎言复读机

央视|秘鲁逾3.3万名警务人员感染新冠 506人不幸离世

最终幻想|暑期网游首选！7月经典款款不可错过

谈古杂谈|券商中报透视：十大龙头瓜分七成净利“蛋糕”

兵鉴：美王牌飞行员入朝参战！战机被我空军击落后不服：一定是俄军干的

泰国华人论坛▲曼谷将封城遏制疫情？发言人：信息有误

科学书屋■元素周期表到底会多长？

曾到处使用“中文”的果敢，现如今又是什么样？游客：与传闻不同

【佳兆业】3-0，4场轰12球！中超最大黑马浮现，还有3大国脚级球星即将加盟

世苍不老|白衬衫紧绷撑开缝！，仅仅10秒钟！这个健美女裁判火了

东方网|杨浦区第5期“行政首长季度讲法”如期开讲

春运■铁路春运进入最高峰，北京各站每天将送60余万旅客离京

摩洛哥海军在地中海截获一批大麻制品

北京中建二局医院靠谱么?

如何就业(哪些专业适合女孩子)

「」疏肝和胃，调畅气机——乌梅

爱奇艺原创综艺《夏日冲浪店》定档7月4日VIP会员抢先看

打电话洗房源是不是太落后了

五代十国|古代一皇帝，在位只有6年，却被后人称赞了千年