技术编程|ACL 2020 | MobileBERT：一种与任务无关的模型压缩方法( 二 ) |

本文插图

3.3 Pre-training Distillation (PD)
除了 layer-wise 的知识转移外，作者还在对 MobileBERT 进行预训练时使用知识蒸馏损失。作者使用原始的线性组合掩码语言模型（MLM），下一句预测（NSP）和新的 MLM 知识蒸馏（KD）是我们的预训练蒸馏损失：
鉴于上述 target ，在训练中可以有各种组合策略。作者讨论了三种策略。

本文插图

辅助知识迁移
在这个策略中将中间知识转移视为知识蒸馏的辅助任务。使用 single 损失，这是来自所有层的知识转移损失以及预训练蒸馏损失。
联合知识迁移
IB-BERT 的中级知识（即attention map和feature map）可能不是 MobileBERT 学生的最佳解决方案。因此，作者建议将这两个 Loss 分开。首先在 MobileBERT 上训练所有 layer-wise 知识转移损失，然后通过预训练蒸馏进一步训练它。
渐进知识转移
作者也担心如果 MobileBERT 无法完美模仿 IB-BERT ，下层可能会影响更高的层次的知识转移。因此，作者建议逐步培训知识转移的每一层。渐进式知识转移分为 L 个阶段，其中 L 是层数。
实验结果
表格还是很清晰的，就不多做解释了。

本文插图

本文插图

本文插图

本文插图

本文插图

本文插图

结论
本文介绍了 MobileBERT ，它是 BERT 的与任务无关的紧凑型变体。流行的 NLP 基准测试 GLUE 的经验结果表明， MobileBERT 与 BERT-base 相当，但体积更小，速度更快。
? 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）
? PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

技术编程|ACL 2020 | MobileBERT：一种与任务无关的模型压缩方法( 二 )

推荐阅读

暖夫生活|来巨美人为您打造不一样的美眉毛改变一个人的气质，不信你看！，巨美人丨爱美之心人人有之

人不辞路虎不辞山是什么意思

赛车游戏|微软赛车大作《极限竞速5》PC配置公布：GTX 650 Ti就能玩

瓦丽莎|女子尸体藏在行李箱内，火化后警方却接到她电话“我还没死”

酱肉详细制作教程酱肉的制作方法

【小酒窝】董璇女儿萌翻天！小风衣搭泡泡袖连衣裙，美成“小公主”

香肠鸡蛋早餐饼的做法

管理目标五大要素管理目标怎么写

历史之奇闻|出色军事家与政治家伯颜，忽必烈的得力干将，元朝初年第一名臣

12处日本旅游必打卡景点日本旅游景点

皇马|若今晚零封黄潜，皇马将自94-95赛季后再度连续5个联赛主场不失球

「一街拍」时尚又有范儿，钟楚曦私服穿搭曝光：碎花连衣裙配红色发带

宝石流云|私域流量＝不用付费？解读公私流量的本质与趋势｜德外荐读

禅诗|禅诗一首--无住禅师

热刺|波切蒂诺和穆里尼奥，谁适合执教热刺？球迷给出答案，且大局已定

xl是多大，衣服尺码xL.xl分别是多大

钱江晚报|知名女艺人在餐厅“吃别人的剩菜”？本人回应了！网友评论难得很一致

柠檬爱柚子动弹不得直喊“救命”，路人：她是自己摔倒的，大妈躺在斑马线上

欧玩游戏|不是猛虎不过江，灭星辰进四强，MTG4：1击败武汉eStarPro

诗词歌赋|唐诗里最真实的古人洞房花烛夜，乍看写新娘娇羞，深思则另有隐喻