「GPU」降低预测过程计算成本,这些NLP模型压缩方法要知道( 四 )
本文插图
不同的模型压缩方法带来的性能损失对比
由Victor Sanh , Lysandre starter , Julien Chaumond和Thomas Wolf提出的“DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter” , 在一个语言建模任务的二级预训练步骤中 , 从基本BERT模型向一个6层的BERT压缩后的学生模型执行知识蒸馏 。 学生模型(以任务不可知的方式训练)在GLUE基准测试上保持了97%的模型性能 , 同时减少了60%的预测时间 。
在文章“TinyBERT: Distilling BERT for Natural Language Understanding”中 , 作者采用了从BERT模型到一个4层 , 隐藏神经元个数为312的学生模型的知识蒸馏与迁移 。 他们在预训练和调参时都进行了迁移 , 得到的模型在GLUE基准测试上的达到了BERT-base性能的96% , 且模型相对于BERT-base缩小了7.5倍 , 预测推断速度提高了近10倍 。
在文章"Patient Knowledge Distillation for BERT Model Compression"中 , 作者将知识蒸馏损失函数应用于12层BERT教师模型以及6层学生模型 , 这在大约5/6的GLUE任务中得到了精度提升(相对于仅将知识蒸馏应用于模型本身) 。
3、不同结构模型的知识迁移
在目前讨论的论文中 , 教师模型和学生模型具有相同的基本架构 , 学生模型通常使用教师模型的权重来进行初始化 。 然而 , 即使在教师和学生模型结构差异很大的情况下 , 也可以应用知识蒸馏损失来让二者的预测结果相近 , 从而将教师模型学习到的知识迁移到学生模型 。
在文章"Training Compact Models for Low Resource Entity Tagging using Pre-trained Language Models"中 , 作者首先在命名实体识别任务上训练了一个BERT教师模型(参数量约330M) , 然后将其迁移到一个更紧凑更高效的CNN-LSTM学生模型上(参数量约3M) , 这样做使得他们在CPU硬件上以最小的精度损失实现了高达2个数量级的速度提升 。
在文章"Distilling Transformers into Simple Neural Networks with Unlabeled Transfer Data"中 , 作者将BERT-Base和BERT-Large迁移到一个双向LSTM学生模型上 , 使得学生模型在4种分类任务(Ag News, IMDB, Elec, and DBPedia)上都能达到和教师模型相同的准确度 , 且参数量削减为13M 。 他们还发现蒸馏使得样本效率大大提高 , 每个任务只需要用大约500个带标签的样本进行训练 , 就能让学生模型达到和教师模型相同的水平(提供足够的未标记样本进行测试) 。
在文章"Distilling Task-Specific Knowledge from BERT into Simple Neural Networks"中 , 作者Lin报告了在使用参数小于1M的单层BiLSTM执行各种句子配对任务(QQP、MNLI等)时的类似结果 。
在文章"Attentive Student Meets Multi-Task Teacher: Improved Knowledge Distillation for Pretrained Models"中 , 作者将多任务学习与知识蒸馏相结合 , 将Transformer教师模型通过注意力机制迁移到deep LSTM学生模型上 。 文章指出 , 从知识蒸馏中得到的提升与多任务学习框架带来的泛化提升是一样的 , 并且预测速度是纯粹知识精馏的30倍 , 是TinyBERT的7倍 。
知识蒸馏是最近很流行的方法 , 原因很明显——它很可能成为许多基于Transformer的语言模型应对逐渐增加的参数量的有效方法 。 如果我们想要尽可能地利用GPU , 那么我们就需要通过知识蒸馏这样的方法来保持高预测速度 。
模块替换
将要介绍的最后一篇论文有两个特点 , 一是采用了一种更新颖的模型压缩方法 , 二是与下面展示的现代艺术作品一起发表:
本文插图
推荐阅读
- 驱动之家|NVIDIA:7nm安培是有史以来最强大的GPU
- 美股研究社|全新GPU横空出世后,英伟达将继续“跑赢大盘”?
- 互联网乱侃先生|国产机们不用再看高通脸色?超级芯片巨头入场,GPU比高通强很多
- 求艺网|预测今年挣钱的3个新兴行业,比传统行业更要前程
- 科技时尚推送|华为技术新突破 GPU Turbo技术确实很吓人
- 界面新闻|海外科技博主又来预测,发布海军蓝版iPhone 12仿制宣传片
- TechWeb.com.cn|芯驰科技X9汽车芯片采用Imagination PowerVR GPU
- 科技甜品时间|苹果 iPhone 12发布时间预测,iPad/Mac显示屏将升级全新技术
- |ARM推出针对5nm设计的CPU、GPU核心
- 平凡科技点评|ARM推全新架构,功耗降低50%,性能“吊打”骁龙865
