机器之心|模型压缩95%,MIT韩松等人提出新型Lite Transformer( 二 )



机器之心|模型压缩95%,MIT韩松等人提出新型Lite Transformer
本文插图

图 3:Lite Transformer 架构 (a) 和注意力权重的可视化 。 传统的注意力 (b) 过于强调局部关系建模(参见对角线结构) 。 该研究使用卷积层专门处理局部特征提取工作 , 以高效建模局部信息 , 从而使注意力分支可以专门进行全局特征提取 (c) 。
在翻译任务中 , 注意力模块必须捕获全局和局部上下文 , 这需要很大的容量 。 与专门化的设计相比 , 这并非最佳选择 。 以硬件设计为例 , CPU 等通用硬件的效率比 FPGA 等专用硬件低 。 研究者认为应该分别捕捉全局和局部上下文 。 模型容量较大时 , 可以容忍冗余 , 甚至可以提供更好的性能 。 但是在移动应用上 , 由于计算和功率的限制 , 模型应该更加高效 。 因此 , 更需要专门化的上下文捕获 。
为了解决该问题 , 该研究提出一个更专门化的架构 , 即长短距离注意力(LSRA) , 而不是使用处理 “一般” 信息的模块 。 该架构分别捕获局部和全局上下文 。
如图 3a 所示 , LSRA 模块遵循两分支设计 。 左侧注意力分支负责捕获全局上下文 , 右侧卷积分支则建模局部上下文 。 研究者没有将整个输入馈送到两个分支 , 而是将其沿通道维度分为两部分 , 然后由后面的 FFN 层进行混合 。 这种做法将整体计算量减少了 50% 。
左侧分支是正常的注意力模块(Vaswani et al. (2017)) , 不过通道维度减少了一半 。 至于处理局部关系的右分支 , 一个自然的想法是对序列应用卷积 。 使用滑动窗口 , 模块可以轻松地覆盖对角线组 。 为了进一步减少计算量 , 研究者将普通卷积替换为轻量级的版本 , 该版本由线性层和深度卷积组成 。 通过这种方式 , 研究者将注意力模块和卷积模块并排放置 , 引导它们对句子进行全局和局部的不同角度处理 , 从而使架构从这种专门化设置中受益 , 并实现更高的效率 。
实验设置
数据集和评估
研究者在机器翻译、文本摘要和语言建模三个任务上进行了实验和评估 。
具体而言 , 机器翻译任务使用了三个基准数据集:IWSLT’14 德语 - 英语 (De-En)、WMT 英语 - 德语 (En-De)、WMT 英语 - 法语(En-Fr) 。
文本摘要任务使用的是 CNN-DailyMail 数据集 。
语言建模任务则在 WIKITEXT-103 数据集上进行 。
架构
模型架构是基于序列到序列学习的编码器 - 解码器 。 在机器翻译任务中 , 针对 WMT 数据集 , 基线模型基于 Vaswani 等人提出的模型 。 对于 IWSLT 数据集 , 基线模型遵循 Wu 等人的设置 。 对于文本摘要任务 , 研究者采用了与 WMT 相同的模型 。 至于语言建模任务 , 模型与 Baevski & Auli (2019) 一致 , 但模型尺寸较小 。
该研究提出的架构首先将 transformer base 模型中的 bottleneck 拉平 , 然后用 LSRA 替换自注意力 。 更具体地说 , 是使用两个专门的模块 , 一个注意力分支和一个卷积分支 。
实验结果
机器翻译
表 1 展示了 Lite Transformer 在 IWSLT’14 De-En 数据集上的定量结果 , 并与 transformer 基线方法和 LightConv 做了对比 。 在大约 100M Mult-Adds 时 , Lite Transformer 模型的 BLEU 值比 transformer 高出 1.6 。

机器之心|模型压缩95%,MIT韩松等人提出新型Lite Transformer
本文插图

表 1:IWSLT’14 De-En 上的结果 。
表 2 中的定量结果表明 , 在 100M Mult-Adds 设置下 , Lite Transformer 在 WMT En-De 数据集和 WMT En-Fr 数据集上的 BLEU 值分别比 Transformer 高出 1.2 和 1.7 , 在 300M Mult-Adds 设置下 , 也有 0.5 和 1.5 分的提升 。

机器之心|模型压缩95%,MIT韩松等人提出新型Lite Transformer


推荐阅读