PTM|乘风破浪的 PTM，深度解读预训练模型的进展( 七 ) 模型|解读|乘风破

由此进一步推理，我们可以得出如下结论：目前预训练模型都采用的 Transformer 结构，从模型容量或模型复杂度来说是足够复杂的。就是说，Transformer 结构本身，目前并非制约预训练模型效果的瓶颈，我们可以仅仅通过增加高质量数据、增加模型复杂度配以更充分地模型训练，就仍然能够极大幅度地提升 Bert 的性能。
这说明了什么呢？这说明了大数据 + 大模型的暴力美学，这条粗暴简洁但有效的路子，还远远没有走到尽头，还有很大的潜力可挖。尽管这带来的副作用是：好的预训练模型，训练成本会非常高，这不是每个研究者都能够承受的。但是，我的意见，这其实是个好事情。如果仅仅通过加数据、扩模型就能获得更好的效果，这么简单的方式就能推动模型效果不断上升，推动更多应用获得更好效果，这不是天大的好事么？至于由此带来的大模型落地难的问题，我相信可以通过搭配知识蒸馏等把模型做小的方案来获得解决。就是说，很可能预训练模型发展会走出一个哑铃模式：两头大，中间小。两个大头中，一头是越来越大的预训练模型，一头是追求各种技术来实用化地把模型做小，这两端会越来越重要。
如果上述假设成立，即预训练领域的暴力美学依然暴力且美丽，那么从今往后的模型改进，我们应该怎么走呢？我的感觉，应该优先探索大数据 + 大模型的路，先走到暴力美学的尽头，然后再集中精力探索模型本身的改进。就是说，我们应该先把数据红利吃完，而不是优先发展新型模型，当然两者可以并行做，但是原则上，新型模型优先级不如先把数据红利吃完。为什么这么说呢？因为，目前很多研究表明：大多数改进新模型带来的提升，根本比不过提升数据质量数量的同时扩充模型容量带来的收益。而一些新模型的有效性，在数据量小的时候可能是有效的，但很可能发生的一幕是，当数据增大模型容量加大后，很多改进不再有效。也就是说，目前很多新模型的作用，很可能是增加了特殊类型的语言知识的编码和泛化能力，但是，这是完全可以通过增加数据数量和质量，并加大模型来达成的，这种方式又比较简单直观。所以，这是为何我觉得应该先把精力放到"大数据 + 大模型" 上，然后再集中精力进行模型改进的主要原因。
知识补习班：其它知识的引入
本文开头讲过，大多数预训练模型是从自由文本中学习语言知识。但是，很明显，我们能让模型学的，肯定不止自由文本这一种类型。理论上，任何包含知识的数据，都有些先验知识可供预训练模型学习。我的感觉，预训练模型的发展，会越来越像人脑，日益变成一个黑盒子。就是说，我们可以通过一定手段，喂给它数据，它就会学会其中包含的知识。但是，它是怎么学会的，学到了什么，这很可能对我们来说，会越来越难以理解，就是说，随着预训练模型学习领域的拓展，这个黑盒子，可能会越来越黑。下面我们介绍两个典型的其它领域，看看预训练模型是怎么学的。当然，我相信这种预训练方式，会拓展到越来越多的其它类型的数据或领域，这也是预训练模型领域，一个比较明晰的发展趋势。
显示知识的引入
原始 Bert 的语言学知识，是从大量自由文本中自主学习的，那么很自然的一个问题就是：我们过去已经通过一些技术手段，归纳出大量的结构化知识，比如知识图谱；或者已经建立了很多知识分析工具，比如命名实体识别系统等。那么能否利用这些知识识别工具，抑或已有的结构化知识，让预训练模型能够直接学到这些知识？
目前也有很多工作在做这个事情，就是让预训练模型能够编码更多的结构化知识或者语言知识。至于如何做，有两种典型的思路：一种以百度 ERNIE 为代表；一种以清华 ERNIE 为代表。这两个工作是最早做这个事情的，差不多同时出来，但思路不同，正好是两种具备代表性的方案。

文章图片
百度 ERNIE 的思路是：在预训练阶段被 Mask 掉的对象上做文章，我们可以使用比如命名实体识别工具／短语识别工具，将输入中的命名实体或者部分短语 Mask 掉（参考上图），这些被 Mask 掉的片断，代表了某种类型的语言学知识，通过这种方式，强迫预训练模型去强化地学习相关知识。
文章图片
清华 ERNIE 则是另外一种思路：我们已经有些结构化知识或者实体关系知识等现成的外部知识库，可以在预训练的过程中，通过工具找出句中的命名实体，句中的命名实体可以触发知识库中其它相关实体，然后预训练模型通过特殊的结构，来融合文本和结构化知识，以进一步促进语言的理解（参考上图）。这是另外一种思路。关于知识的融入，后续还有很多工作，但是大体走的是上面两条路线之一。关于将显示知识或者结构化知识引入预训练模型，我是这么看的，纯属个人意见：
我觉得，假设说我们用来预训练的数据量特别特别大，而且特征抽取器的能力特别强。理论上，结构化知识是蕴含在这些文本内的，因为我们的外部知识库也是通过技术手段从自由文本里挖掘出来的。假设上面两个条件同时能够被满足，理论上，不太需要单独再把结构化知识独立补充给 Bert 这类预训练模型，预训练模型应该能够直接从自由文本中就学会这些知识。但是，以我们目前的技术条件，上面两个条件完全被满足，还是有一定难度的。于是，在这种约束下，感觉独立强化知识，让 Bert 在编码的时候更重视这些结构化知识，看上去是有一定补充作用的。我猜测，比较高频出现的知识，已经能够通过常规的语言模型预训练能够捕获了，很可能对于那些偏冷门的知识，引入结构化知识，会对预训练模型做下游任务有直接促进作用。而可以预见的是：随着机器资源能力越来越强大，如果在第一个预训练阶段，不断加大数据数量和质量，不断增加 Transformer 模型容量，那么，单独补充结构化知识给预训练模型，收益可能会越来越小。当然，以目前的技术发展阶段，感觉这个事情还有空间和潜力可挖掘。当然，上面说的是通用知识，如果手上的外部知识库，领域性很强，通用训练数据中包含的相关领域数据很少，那么，直接把知识引入，对于解决问题还是很有必要的。

PTM|乘风破浪的 PTM，深度解读预训练模型的进展( 七 )

推荐阅读

玉坠怎么清洗和保养方法玉坠怎么清洗和保养方法视频

网络营销是什么，网络营销的四大基础理论

俊男美女|历史上两位皇后同姓甄氏美女，她们的命运也非常相似

手中雕刻生花朵▲日本这一数据却在西方七国中排名垫底，坐拥52家世界500强

五官疾病|缺牙危害你知道多少？

[综艺节目]早应该被停播的几个综艺节目，不仅内幕让人气愤，甚至还误导青少年

人民军队|军网网评：从抗洪救灾看这支军队的“变”与“不变”

近千位胆结石患者中有三成会把胆结石当成胃病来治疗，很惊人

巴菲特西方石油100亿?巴菲特重仓石油股

鸡蛋和鸭蛋哪个营养价值更高一点,请问鹅蛋鸭蛋鸡蛋哪一个营养最好呢-

女子|女乘客有轻生倾向还说去电站大桥出租司机接下来做了这件事……

人民日报客户端内蒙古频道|蒲公英种植结硕果鲜野菜产业铺新路

这些地方最好玩：换用抽拉式设计，华为新款折叠屏机型专利现身

佩洛希|美国总统特朗普5日宣布出院缓解不确定性带动美股上涨

阳光有一刻耀眼|选择存银行定期，银行员工：这样存每年利息近6000，手中有10万

斯诺克很难|特鲁姆普出局，2020世锦赛：火箭逆转进4强将战塞尔比

银行|7家银行信用卡业务比拼：工行发卡量最大，浦发不良率最高

湖北遭遇入汛以来暴雨范围最广降雨天气

『游泳池』全球最奇特的4家有游泳池，有的颜色像“血”，有的最“魔鬼”

叶桃之|朋友多交无益，人到中年