机器之心|模型压缩95%，MIT韩松等人提出新型Lite Transformer( 二 )

本文插图

图 3：Lite Transformer 架构 (a) 和注意力权重的可视化。传统的注意力 (b) 过于强调局部关系建模（参见对角线结构）。该研究使用卷积层专门处理局部特征提取工作，以高效建模局部信息，从而使注意力分支可以专门进行全局特征提取 (c) 。
在翻译任务中，注意力模块必须捕获全局和局部上下文，这需要很大的容量。与专门化的设计相比，这并非最佳选择。以硬件设计为例， CPU 等通用硬件的效率比 FPGA 等专用硬件低。研究者认为应该分别捕捉全局和局部上下文。模型容量较大时，可以容忍冗余，甚至可以提供更好的性能。但是在移动应用上，由于计算和功率的限制，模型应该更加高效。因此，更需要专门化的上下文捕获。
为了解决该问题，该研究提出一个更专门化的架构，即长短距离注意力（LSRA），而不是使用处理 “一般” 信息的模块。该架构分别捕获局部和全局上下文。
如图 3a 所示， LSRA 模块遵循两分支设计。左侧注意力分支负责捕获全局上下文，右侧卷积分支则建模局部上下文。研究者没有将整个输入馈送到两个分支，而是将其沿通道维度分为两部分，然后由后面的 FFN 层进行混合。这种做法将整体计算量减少了 50% 。
左侧分支是正常的注意力模块（Vaswani et al. (2017)），不过通道维度减少了一半。至于处理局部关系的右分支，一个自然的想法是对序列应用卷积。使用滑动窗口，模块可以轻松地覆盖对角线组。为了进一步减少计算量，研究者将普通卷积替换为轻量级的版本，该版本由线性层和深度卷积组成。通过这种方式，研究者将注意力模块和卷积模块并排放置，引导它们对句子进行全局和局部的不同角度处理，从而使架构从这种专门化设置中受益，并实现更高的效率。
实验设置
数据集和评估
研究者在机器翻译、文本摘要和语言建模三个任务上进行了实验和评估。
具体而言，机器翻译任务使用了三个基准数据集：IWSLT’14 德语 - 英语 (De-En)、WMT 英语 - 德语 (En-De)、WMT 英语 - 法语(En-Fr) 。
文本摘要任务使用的是 CNN-DailyMail 数据集。
语言建模任务则在 WIKITEXT-103 数据集上进行。
架构
模型架构是基于序列到序列学习的编码器 - 解码器。在机器翻译任务中，针对 WMT 数据集，基线模型基于 Vaswani 等人提出的模型。对于 IWSLT 数据集，基线模型遵循 Wu 等人的设置。对于文本摘要任务，研究者采用了与 WMT 相同的模型。至于语言建模任务，模型与 Baevski & Auli (2019) 一致，但模型尺寸较小。
该研究提出的架构首先将 transformer base 模型中的 bottleneck 拉平，然后用 LSRA 替换自注意力。更具体地说，是使用两个专门的模块，一个注意力分支和一个卷积分支。
实验结果
机器翻译
表 1 展示了 Lite Transformer 在 IWSLT’14 De-En 数据集上的定量结果，并与 transformer 基线方法和 LightConv 做了对比。在大约 100M Mult-Adds 时， Lite Transformer 模型的 BLEU 值比 transformer 高出 1.6 。

本文插图

表 1：IWSLT’14 De-En 上的结果。
表 2 中的定量结果表明，在 100M Mult-Adds 设置下， Lite Transformer 在 WMT En-De 数据集和 WMT En-Fr 数据集上的 BLEU 值分别比 Transformer 高出 1.2 和 1.7 ，在 300M Mult-Adds 设置下，也有 0.5 和 1.5 分的提升。

机器之心|模型压缩95%，MIT韩松等人提出新型Lite Transformer( 二 )

推荐阅读

中年云南铁塔：积极作为勇当主力军

?中国新闻网|?蚂蚁上市在即马云财富要甩马化腾等富豪几条大街？

张天爱|张天爱是如何保持身材？不吃油炸不吃零食，连鸡翅都是舔一下

「财经上下游」美国企业会将供应链撤出中国吗？普华永道调研：超七成说不会

经济观察报汽车职业经理人跳槽困境:你擅长的可能不再是车企想要的

青蛇电影歌曲青蛇主题曲

沙滩排球题材剧《燃！沙排少女》杀青，张雪迎许龄月主演

中国那么多家庭不幸福的主要原因是啥

澎湃新闻|中科院院刊建议：支持深圳、青岛、大连、喀什升格为直辖市

人民日报■谢谢你，英雄的武汉人民

「人民日报」惊悚！把使用过的口罩放大1000倍,才发现…，

汽车舆生活|百公里加速4.4秒，最怕下雨天，河南偶遇一辆“蹦蹦”

前端js中http跳转https报403错误，请求头referer详解

宠物|俄罗斯一女子开车载熊兜风画面引网友围观

彩机云锦|为什么越来越多离异女人不选择二婚？看看过来人怎样说

【库兹马】姐弟恋！美媒：库兹马金屋藏娇和白癜风超模一起隔离

运动后全身酸痛怎么回事啊？

吕丽萍|吕丽萍夫妇疑回国养老？吕丽萍曾为美国庆生，公开哭悼安倍晋三

吃XO酱上火吗？XO酱的营养价值有哪些?

大熊闻三方|第1位被严重抹黑，第3位死后成了神仙，三国时真正的七大名将