机器之心|模型压缩95%,MIT韩松等人提出新型Lite Transformer( 三 )


本文插图

表 2:在 WMT’14 En-De 和 WMT’14 En-Fr 上的结果 。
研究者还提供了模型在 WMT En-Fr 上的权衡曲线 , 如图 4a 所示 , Lite Transformer 一直优于原版 transformer 。

机器之心|模型压缩95%,MIT韩松等人提出新型Lite Transformer
本文插图

图 4:在 WMT En-Fr 数据集上的机器翻译权衡曲线 , 以及在 WIKITEXT-103 数据集上的语言建模权衡曲线 。 两个曲线都说明了在移动设置下 , Lite Transformer 比 transformer 性能更佳(蓝色区域) 。
与自动化设计模型的对比
与基于 AutoML 的 Evolved Transformer(ET)相比 , Lite Transformer 在移动设置中也有明显的改进 。 此外 , 在 100M 和 300M 的 Mult-Adds 下 , Lite Transformer 的 BLEU 值分别比 ET 高 0.5 和 0.2 , 详见表 3 。

机器之心|模型压缩95%,MIT韩松等人提出新型Lite Transformer
本文插图

表 3:不同 NMT 模型的性能和训练成本 。
文本摘要

机器之心|模型压缩95%,MIT韩松等人提出新型Lite Transformer
本文插图

表 4:在 CNN-DailyMail 数据集上的文本摘要结果 。

机器之心|模型压缩95%,MIT韩松等人提出新型Lite Transformer
本文插图

【机器之心|模型压缩95%,MIT韩松等人提出新型Lite Transformer】表 5:在 WIKITEXT-103 数据集上的语言建模结果 。


推荐阅读