机器之心|模型压缩95%,MIT韩松等人提出新型Lite Transformer
选自arXiv
机器之心编译
参与:小舟、魔王Transformer 的高性能依赖于极高的算力 , 这让移动端 NLP 严重受限 。 在不久之前的 ICLR 2020 论文中 , MIT 与上海交大的研究人员提出了一种高效的移动端 NLP 架构 Lite Transformer , 向在边缘设备上部署移动级 NLP 应用迈进了一大步 。
虽然推出还不到 3 年 , Transformer 已成为自然语言处理(NLP)领域里不可或缺的一环 。 然而这样流行的算法却需要极高的算力才能实现足够的性能 , 这对于受到算力和电池严格限制的移动端来说有些力不从心 。
在 MIT 最近的研究《Lite Transformer with Long-Short Range Attention》中 , MIT 与上海交大的研究人员提出了一种高效的移动端 NLP 架构 Lite Transformer , 向在边缘设备上部署移动级 NLP 应用迈进了一大步 。 该论文已被人工智能顶会 ICLR 2020 收录 。
该研究是由 MIT 电气工程和计算机科学系助理教授韩松领导的 。 韩松的研究广泛涉足深度学习和计算机体系结构 , 他提出的 Deep Compression 模型压缩技术曾获得 ICLR2016 最佳论文 , 论文 ESE 稀疏神经网络推理引擎 2017 年曾获得芯片领域顶级会议——FPGA 最佳论文奖 , 引领了世界深度学习加速研究 , 对业界影响深远 。
本文插图
论文地址:https://arxiv.org/abs/2004.11886v1
GitHub 地址:https://github.com/mit-han-lab/lite-transformer
Transformer 在自然语言处理任务(如机器翻译、问答)中应用广泛 , 但它需要大量计算去实现高性能 , 而这不适合受限于硬件资源和电池严格限制的移动应用 。
这项研究提出了一种高效的移动端 NLP 架构——Lite Transformer , 它有助于在边缘设备上部署移动 NLP 应用 。 其核心是长短距离注意力(Long-Short Range Attention , LSRA) , 其中一组注意力头(通过卷积)负责局部上下文建模 , 而另一组则(依靠注意力)执行长距离关系建模 。
这样的专门化配置使得模型在三个语言任务上都比原版 transformer 有所提升 , 这三个任务分别是机器翻译、文本摘要和语言建模 。
在资源有限的情况下(500M/100M MACs) , Lite Transformer 在 WMT’14 英法数据集上的 BLEU 值比分别比 transformer 高 1.2/1.7 。 Lite Transformer 比 transformer base 模型的计算量减少了 60% , 而 BLEU 分数却只降低了 0.3 。 结合剪枝和量化技术 , 研究者进一步将 Lite Transformer 模型的大小压缩到原来的 5% 。
对于语言建模任务 , 在大约 500M MACs 上 , Lite Transformer 比 transformer 的困惑度低 1.8 。
本文插图
值得注意的是 , 对于移动 NLP 设置 , Lite Transformer 的 BLEU 值比基于 AutoML 的 Evolved Transformer 高 0.5 , 而且它不需要使用成本高昂的架构搜索 。
从 Lite Transformer 与 Evolved Transformer、原版 transformer 的比较结果中可以看出 , Lite Transformer 的性能更佳 , 搜索成本相比 Evolved Transformer 大大减少 。
本文插图
那么 , Lite Transformer 为何能够实现高性能和低成本呢?接下来我们来了解其核心思想 。
长短距离注意力(LSRA)
NLP 领域的研究人员试图理解被注意力捕捉到的上下文 。 Kovaleva 等人 (2019) 和 Clark 等人 (2020) 对 BERT 不同层的注意力权重进行了可视化 。
如下图 3b 所示 , 权重 w 表示源句单词与目标句单词之间的关系(自注意力也是如此) 。 随着权重 w_ij 的增加(颜色加深) , 源句中的第 i 个词更加注意目标句中的第 j 个词 。 注意力图通常有很强的模式化特征:稀疏和对角线 。 它们代表了一些特定单词之间的关系:稀疏表示长距离信息间的关系 , 对角线表示近距离信息间的关系 。 研究者将前者称为「全局」关系 , 将后者称为「局部」关系 。
推荐阅读
- 模型|REVIT技巧!如何创建能量模型,实现能量优化
- 技术编程|后台权限管理设计思路:三种模型分析
- 技术编程|机器学习又一重要医学应用!培植人造器官
- 智能机器人|【好莱坞首次用AI机器人主演】
- 楚天都市报|机器替换人工上班获奖励三千万元!企业智能化改造增了效率还拿补贴
- AI人工智能|OpenAI新模型曝光:给它半张图片,能够猜测补全
- 机器|令人惊叹的伐木机器,5米高的树直接从树顶“劈下”,看着是真爽
- DeepTech深科技|OpenAI新模型曝光:给它半张图片,能够猜测补全
- 无人科技|智能检测机器人亮相北京动车段
- 人工智能|哈工大将在重庆建研究院,聚集汽车、机器人、人工智能等领域
