PTM|乘风破浪的 PTM,深度解读预训练模型的进展( 六 )
对于句子级的任务,NSP 任务学习两个句子是否连续句:正例由两个连续句子构成,负例则随机选择一句跟在前一句之后,要求模型预测两者是否连续句子。本质上,NSP 在预测两个句子是否表达相近主题,而这个任务,相对 MLM 来说,过于简单了,导致模型学不到什么知识。ALBERT 采用了句子顺序预测 SOP(Sentence Order Prediction):跟 NSP 一样,两个连续出现的句子作为正例,但是在构造负例的时候,则交换句子正确顺序,要求模型预测两个句子出现顺序是否正确,这样增加任务难度,StructBERT 也采取了类似的做法。实验证明 SOP 是有效的句子级预测任务。
总而言之,目前证明 Span 类任务是有效的单词级任务,SOP 是有效的句子级任务。目前看,预训练任务越有难度,则预训练模型越能高效率地学习知识,所以寻找更新的更有难度的预训练任务是有较大探索空间以及成功可能的。
上面列了四个主要因素,那么,还有其它因素么?我的猜测是基本没有了,尽管可能还有一些差异化的改进点是有效的,但它对最终效果的贡献,应该不是特别大,起码不像上述四个因素那么大。上面四个因素,如果进一步要划分重要性的话,估计前三个都很重要,第四个相对而言影响稍小一些。当然,同样地,这是我个人的猜测,谨慎参考。
文章图片
如果我们根据上述可叠加的有效因素,来分析现有模型,可得出如上图所示列表(具备某因素的模型,对应的格子做了标记)。从上表中,我们可以得出一些结论:首先,所有这些效果表现突出的模型,都增加了更多的高质量预训练数据。另外,通过增大 Batch Size 以及增加预训练步数方式,都使得模型得到更充分地训练。也就是说,所有这些表现突出的模型,都是站在 RoBERTa 模型的肩膀上的。其实,只要你站在 RoBERTa 肩膀上,效果都不会太差,剩下的问题是能比它好多少的问题。
其次,如果我来冒昧地做个判断的话,貌似对于语言理解类任务来说,估计 Google T5 和 ALBERT 是效果最好的预训练模型;而对于语言生成类的任务来说,估计 GPT3 是效果最好的模型。对于 Google T5 和 ALBERT 模型来说,两者都采纳了绝大部分有效因素,主要不同在于预训练任务,Google T5 采用了 Span 类单词级任务,而 ALBERT 采用了 SOP 类句子级任务。这三个表现最突出的模型,和其它模型最大的区别,大概率在于它们在增加更多高质量数据的同时,走了大规模提升模型容量的路子。也就是说,在增加数据规模基础上大规模增加模型容量,这应该是拉开不同模型效果最主要的因素。
再次,我们可以据此预测,如果一个模型,采纳了上述所有有效因素,那么可以获得当前技术水准下的最好模型效果,就如上表中最后一行展示的,目前仍未知的 Model X 那样。就是说,这个模型应该是这样的:在 RoBERTa 模型基础上,增加更多高质量数据的同时,充分放大模型容量,而预训练任务则是单词类 Span 任务和句子类 SOP 任务的结合。当然,估计这里面起到主要作用的还是大量数据 + 大模型的因素。
文章图片
这里单独说下 ELECTRA,这是一个比较独特的预训练方法(参考上图)。它形式上采取了类似 GAN 的模式,但是本质上并非 GAN,因为缺乏 GAN 最关键的生成器和判别器的对抗训练过程。ELECTRA 联合训练了小的生成器以及大的判别器,它强迫判别器对生成器产生的所有单词,做个是否经过改写的判断,这无疑增加了模型的学习效率,因为原先的 MLM 只学习 15% 的被 Mask 单词,而 ELECTRA 对所有单词都要进行判断,并从中学习。ELECTRA 论文做了分析,模型的绝大多数收益来自于全部单词参与训练这一步。这意味着,ELECTRA 这种所有单词全员参与训练过程的模式,能够在其它条件相同的情况下(模型复杂度,数据量等),使得模型获得更高的学习效率,这个结论和做法还是很有价值的。本质上,ELECTRA 这种提升模型效率的方法,和上面所述其它模型的各种做法,是相互互补的。就是说,在 ELECTRA 的训练模式下,增加训练数据、增加模型规模、模型充分训练,有可能获得更好的模型效果。暴力美学:简单粗暴但有效
前文有述,RoBERTa 是个非常强的 Baseline,相对目前表现最强的 Google T5 和 ALBERT 模型,其实 RoBERTa 与这两个天花板模型之间,它们之间的性能 Gap 并不是特别大。其它表现突出的模型,要我猜,性能应该介于 RoBERTa 这个 Baseline 和两个天花板模型之间。而所有这些模型之间的主要差异,极有可能是模型容量的大小差异带来的。
从某种角度上看,我们可以认为:RoBERTa 可以被看作是经过更充分训练的 Bert 模型,而 ALBERT/Google T5 可以理解为进一步增加了模型复杂度的 RoBERTa 增强版本。从 Bert 到 RoBERTa,再到 ALBERT/Google T5,这三类模型,很可能代表了自 Bert 出现来的最主要技术进展。所以,从模型改进的角度看,自从 Bert 诞生后近两年,并没有出现特别有效的模型改进方法。尽管从解决 NLP 任务效果的角度看,新的预训练模型相比 Bert 有了巨大的提升,但是这些提升,大致可以理解为是因为引入更多高质量数据、采用更多模型参数、模型训练更充分以及增加训练任务难度这几点综合导致的。而其中,在 RoBERTa 这种充分训练的模型基础上,增加数据,并加上更大的模型,可能在其中起到了主导作用。
推荐阅读
- 队友|沈梦辰曝光队友“丑照”,但显示出良好的人气
- 公演|《乘风破浪的姐姐》,第五次公演现场,李斯丹妮组《情人》太惊艳
- 缺位|《乘风破浪的姐姐》,青春从来不缺位,也不让位,而是自信归位
- 时尚狂想曲|《乘风破浪的姐姐》录制团综,张雨绮站C位,简约衬衣罕见秀知性
- 归位|《乘风破浪的姐姐》,青春从来不缺位,也不让位,而是自信归位
- 10月|印度发生5.1级地震,震源深度40千米
- 陈赫|《乘风破浪的姐姐》成团夜请了17位男嘉宾,陈赫惹来一片争议
- 节目组|孟佳,别挣扎了,《乘风破浪》节目组明摆着想把你淘汰
- 宁静|《乘风破浪的姐姐》录团综,宁静万茜破不和传闻,路演视频欢乐多
- 消息资讯|乘风破浪 | 变革转型:人才培养——企业转型与创新的核心驱动力
