新智元微软亚研院副院长周明：从语言智能到代码智能( 二 )

本文插图
图3：预训练模型-自然语言处理的新范式
预训练模型包括预训练和微调（Fine-tuning），可以做纯文本训练，也可以做文本、图像、文本和视频，用成对数据进行处理。
在Pre-trained model中，需要一个自监督学习策略 Autoregressive language model (自回归语言模型)和 Auto encoder (解码自动编码器)做单语言、多语言或多模态，支持多种自然语言任务，包括分类、序列标注、结构预测、序列生成。
Self-supervise learning可以利用数据的自然特点，不需要人工进行标注就可以进行训练和学习。
Auto-encoding可以对词或者句子进行覆盖或调整，让模型来猜测原来的词或原来的词序，其错误率可以调整网络。

本文插图
图4：自监督学习的预训练
关于为什么做预训练模型，周明进行了以下总结：
1.预训练模型嵌入了与任务无关的常识。对语法知识和语义知识进行了隐式编码。
2.预训练模型将学习到的知识转移到下游任务中，包括低资源注释任务和语言的任务。
3. 预训练模型几乎支持所有的 NLP 任务，且都具有 SOTA 效果。驱使研究者利用自然训练的迁移模型，来支持所有的自然语言任务。
4. 为各种应用程序提供可扩展的解决方案。只需通过特定任务的标签数据微调支持新任务。

本文插图
图5：语言、视觉及其他方面的预训练模型发展趋势

本文插图
图6：微软预训练模型的主要应用
预训练模型近几年的研究进展：
1.出现具有 SOTA 性能的大型模型（如Turing 17B；GPT-3 175B；GShard 600B）
2.预训练的方法和模型不断创新，新的预训练任务、屏蔽策略和网络结构出现。
3.从单一语言到多语言，到多模式（图像、视频、音频），再到编程语言，不断拓展，把迁移学习的模型更广泛的运用到新的任务中。
4.可满足实际需要的小型经济模型（例如模型压缩，知识提炼等）。
报告中，周明介绍了几类预训练语言模型。
1. UniLM
BERT 和GPT 都是从左到右的语言模型， GPT 适合做生成， BERT 适合做理解，而UniLM 可以把两个任务同时融入，通过引入 Sequence to Sequence 的语言模型，在预测词时做多任务学习，通过Mask矩阵来控制词和词的连接，用一个统一架构，通过多任务学习得到UniLM ，该模型兼具分析生成和Encoder decoder 工作。

本文插图
【新智元微软亚研院副院长周明：从语言智能到代码智能】
图7：UniLM
2. Unicoder
与经典的多元预训练模型相比， Unicoder 通过引入新任务 Constructive Learning (构造性学习)来预测两个词之间是否构成互译或者两个短语或句子之间是否构成互译，比如中英文句子的互译，该任务使预训练水平有所提高。

本文插图
图8：Unicoder
3. Unicoder和Unicoder-VL
针对 Unicoder 只能做分析或理解，研究者引入了 Unicoder-VL 进行生成，利用对输入句子加入噪声，比如颠倒词序，或加、减词做Encode ，并在Decode时试图恢复所破坏的部分，测试模型的整体能力。

新智元微软亚研院副院长周明：从语言智能到代码智能( 二 )

推荐阅读

巴尔多|黄海波陷入“快餐门”风波被封杀，出狱后的他，现过得怎么样？

液体卫生巾的弊端液体卫生巾为什么叫液体卫生巾

长春文旅|又到拼手速的时候啦！，重要通知！中秋国庆假期车票即将开售

职业教育|一位学技术的17岁女孩走红，初中生考不上高中，也没必要过多烦恼

唯小宝网络■自媒体运营推广方式有哪些？这8种方式你都知道吗？

鞠婧祎|开播就是第一！《心居》被赞剧情太真实，海清再演上海媳妇买房

德林社|昙花一现的巨无霸

电脑上怎么看淘宝直播怎么搜主播怎么用电脑看淘宝直播间

「中国青年网」独龙江：青春的岁月像条河

滑铁卢大学|在职场，哪些话不该说，哪些话应该少说

你咋样理解“有趣的灵魂”这句话

丁香茶什么时候喝最好

对话 | 广汽本田刘朝明：EA6提速广本电动出行战略

消费|消费需求加快释放！“十一”黄金周零售和餐饮日均销售额同比增长4.9%

史淑荣血液科医生|药不能乱吃，否则会让血小板更高！

中新网|乌鲁木齐：提升本地防疫物资生产能力日生产口罩逾40万只

喵喵次元|航空航天也离不开它，何为氧烛？不仅仅是潜艇兵的保命工具

男人|“优秀丈夫”的五个特征，中两个以上你就是嫁对人了，偷着乐吧

新鲜娱乐汇|郑希怡家基因绝了，她和她妈一模一样，她女儿和她小时候一模一样

第一大视野|饭圈小伙就这智商？tes投毒事件主角道歉：我还没到30岁不懂事