新智元微软亚研院副院长周明:从语言智能到代码智能( 二 )


新智元微软亚研院副院长周明:从语言智能到代码智能
本文插图
图3:预训练模型-自然语言处理的新范式
预训练模型包括预训练和微调(Fine-tuning) , 可以做纯文本训练 , 也可以做文本、图像、文本和视频 , 用成对数据进行处理 。
在Pre-trained model中 , 需要一个自监督学习策略 Autoregressive language model (自回归语言模型)和 Auto encoder (解码自动编码器)做单语言、多语言或多模态 , 支持多种自然语言任务 , 包括分类、序列标注、结构预测、序列生成 。
Self-supervise learning可以利用数据的自然特点 , 不需要人工进行标注就可以进行训练和学习 。
Auto-encoding可以对词或者句子进行覆盖或调整 , 让模型来猜测原来的词或原来的词序 , 其错误率可以调整网络 。
新智元微软亚研院副院长周明:从语言智能到代码智能
本文插图
图4:自监督学习的预训练
关于为什么做预训练模型 , 周明进行了以下总结:
1.预训练模型嵌入了与任务无关的常识 。 对语法知识和语义知识进行了隐式编码 。
2.预训练模型将学习到的知识转移到下游任务中 , 包括低资源注释任务和语言的任务 。
3. 预训练模型几乎支持所有的 NLP 任务 , 且都具有 SOTA 效果 。 驱使研究者利用自然训练的迁移模型 , 来支持所有的自然语言任务 。
4. 为各种应用程序提供可扩展的解决方案 。 只需通过特定任务的标签数据微调支持新任务 。
新智元微软亚研院副院长周明:从语言智能到代码智能
本文插图
图5:语言、视觉及其他方面的预训练模型发展趋势
新智元微软亚研院副院长周明:从语言智能到代码智能
本文插图
图6:微软预训练模型的主要应用
预训练模型近几年的研究进展:
1.出现具有 SOTA 性能的大型模型(如Turing 17B;GPT-3 175B;GShard 600B)
2.预训练的方法和模型不断创新 , 新的预训练任务、屏蔽策略和网络结构出现 。
3.从单一语言到多语言 , 到多模式(图像、视频、音频) , 再到编程语言 , 不断拓展 , 把迁移学习的模型更广泛的运用到新的任务中 。
4.可满足实际需要的小型经济模型(例如模型压缩 , 知识提炼等) 。
报告中 , 周明介绍了几类预训练语言模型 。
1. UniLM
BERT 和GPT 都是从左到右的语言模型 , GPT 适合做生成 , BERT 适合做理解 , 而UniLM 可以把两个任务同时融入 , 通过引入 Sequence to Sequence 的语言模型 , 在预测词时做多任务学习 , 通过Mask矩阵来控制词和词的连接 , 用一个统一架构 , 通过多任务学习得到UniLM , 该模型兼具分析生成和Encoder decoder 工作 。
新智元微软亚研院副院长周明:从语言智能到代码智能
本文插图
【新智元微软亚研院副院长周明:从语言智能到代码智能】
图7:UniLM
2. Unicoder
与经典的多元预训练模型相比 , Unicoder 通过引入新任务 Constructive Learning (构造性学习)来预测两个词之间是否构成互译或者两个短语或句子之间是否构成互译 , 比如中英文句子的互译 , 该任务使预训练水平有所提高 。
新智元微软亚研院副院长周明:从语言智能到代码智能
本文插图
图8:Unicoder
3. Unicoder和Unicoder-VL
针对 Unicoder 只能做分析或理解 , 研究者引入了 Unicoder-VL 进行生成 , 利用对输入句子加入噪声 , 比如颠倒词序 , 或加、减词做Encode , 并在Decode时试图恢复所破坏的部分 , 测试模型的整体能力 。


推荐阅读