技术编程|ACL 2020 | MobileBERT:一种与任务无关的模型压缩方法( 二 )
本文插图
3.3 Pre-training Distillation (PD)
除了 layer-wise 的知识转移外 , 作者还在对 MobileBERT 进行预训练时使用知识蒸馏损失 。 作者使用原始的线性组合掩码语言模型(MLM) , 下一句预测(NSP)和新的 MLM 知识蒸馏(KD)是我们的预训练蒸馏损失:
鉴于上述 target , 在训练中可以有各种组合策略 。 作者讨论了三种策略 。
本文插图
辅助知识迁移
在这个策略中将中间知识转移视为知识蒸馏的辅助任务 。 使用 single 损失 , 这是来自所有层的知识转移损失以及预训练蒸馏损失 。
联合知识迁移
IB-BERT 的中级知识(即attention map和feature map)可能不是 MobileBERT 学生的最佳解决方案 。 因此 , 作者建议将这两个 Loss 分开 。 首先在 MobileBERT 上训练所有 layer-wise 知识转移损失 , 然后通过预训练蒸馏进一步训练它 。
渐进知识转移
作者也担心如果 MobileBERT 无法完美模仿 IB-BERT , 下层可能会影响更高的层次的知识转移 。 因此 , 作者建议逐步培训知识转移的每一层 。 渐进式知识转移分为 L 个阶段 , 其中 L 是层数 。
实验结果
表格还是很清晰的 , 就不多做解释了 。
本文插图
本文插图
本文插图
本文插图
本文插图
本文插图
结论
本文介绍了 MobileBERT , 它是 BERT 的与任务无关的紧凑型变体 。 流行的 NLP 基准测试 GLUE 的经验结果表明 , MobileBERT 与 BERT-base 相当 , 但体积更小 , 速度更快 。
? 稿件确系个人 原创作品 , 来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
? PaperWeekly 默认每篇文章都是首发 , 均会添加“原创”标志
推荐阅读
- 摄像头|小米截胡中兴屏下摄像头技术,小米研发还是供应链技术?
- 马斯克|马斯克用活猪演示脑机接口技术:实时读取猪脑信息 心灵感应成真了
- 三防|带你了解三防手持终端的秘密
- 第三|原创 小米发布第三代屏下相机技术,或将在Mix 4上首秀?
- 海信|首个新兴显示技术分标委成立 海信牵头制定国标
- 中年|Python编程语言有什么独特的优势呢?
- |马斯克用活猪演示脑机技术,他希望今年年底前能在人体内植入
- 互联网的放大镜|小米截胡中兴屏下摄像头技术,小米研发还是供应链技术?
- 新机发布|原创 小米发布第三代屏下相机技术,或将在Mix 4上首秀?
- 技术|最新《中国禁止出口限制出口技术目录》发布,新增操作系统、密码芯片安全技术
