#自然语言处理#叱咤风云的 BERT 为何败于商业环境?( 二 )
预训练模型能解决动态商业环境的挑战吗? 在一些动态的商业环境中 , 根本不可能会生成任何有标记的数据 。 请考虑这样一个环境 , 其中新域经常被添加或更改 。 在这种情况下 , 不断标记新的训练数据 , 将是一项无效、且永无止境的任务 。 这些情况需要无监督的域适应系统 , 该系统使用来自一个域(源域)的现有标记数据进行训练 , 然后对来自另一个域(目标域)的未标记数据进行推理 。
我们观察到 , 预训练模型在有少量目标域标记数据的情况下表现出色 , 但在目标语没有任何标记数据的情况下 , 情况会如何呢?预训练模型在这些环境表现如何?到目前为止 , 使用预训练模型与从头开始的训练相比 , 只有很小的改进(见图 3 中的蓝线和橙线) 。 使用标记的目标域数据(绿色条)对 BERT 进行微调 , 与仅使用源域数据(蓝色条和橙色条)对 BERT 进行微调 , 或从头开始训练 RNN, 这三者之间的巨大差距表明 , 在预训练期间 , 预训练模型学习到的信息比从头开始的训练有所增强 , 但是 , 当目标域中的标记数据不可用时 , 仅仅进行跨域扩展还是不够的 。 或者更直截了当地说 , 无监督领域适应问题仍然远远不能通过仅使用源域数据的微调预训练模型来解决 。
本文插图
图 3:在基于方面的情感分析(ABSA)任务上测量的源域数据设置与目标域数据设置 , 在 SemEval14 的任务 4 的子任务 1 中描述 。 其中:橙色条表示使用源域数据(笔记本电脑评论)从头开始训练 RNN , 并使用目标域数据(餐馆评论)执行推理;蓝色条表示使用源域数据对 BERT 进行微调;绿色条表示使用目标域数据对 BERT 进行微调 。
资料来源:Intel 人工智能实验室 。 配置:INtel Xeon E5-2600A v4 CPU @ 2.40GHz 。 Intel 于 2020 年 2 月 27 日完成测试 。
缩小差距的一步:嵌入结构信息 那么 , 为了缩小域内环境和完全跨域环境之间的差距 , 我们可以做些什么呢?在 Yann LeCun 和 Christopher Manning 之间的公开讨论中 , Manning 认为 , 与缺乏结构信息的系统相比 , 提供结构信息可以使我们设计出从较少的数据中学到更多信息的系统 , 并且具有更高的抽象级别 。 这一观点 , 得到了自然语言处理社区的广泛支持 。
事实上 , 最近的一系列的研究表明 , 使用结构信息(即句法信息) , 可以改进泛化模型 。 这种改进的泛化增强了域内设置模型的健壮性 , 对于跨域设置更是如此 。 例如 , 在介绍 LISA(基于语言学的自注意力 , Linguistically-Informed Self-Attention)模型的最新著作中 , 作者表明 , 在跨域设置中 , 嵌入句法依存解析信息可以显著提高 SRL 任务的正确性 。 作者将句法信息直接嵌入到 Transformer 网络的注意力头中 , 并从头开始进行训练 。
最近的另一项研究表明 , 在完形填空测试任务中 , 使用依存关系和共指链作为辅助监督嵌入自注意力模型比最大的 GPT-2 模型表现得更好 。 其他研究表明 , 对共指消解(coreference resolution)和神经机器翻译(Neural Machine Translation , NMT)等任务具有更好的泛化能力 。
最近的这些进步 , 使我们离在数据稀缺的商业环境中实现更好的健壮性和可伸缩性更近了一步 , 但仍然存在一些有待解决的问题和挑战 , 需要自然语言处理社区来解决 。 应该使用什么类型的外部信息?这些信息应该如何嵌入预训练模型?
结 语 【#自然语言处理#叱咤风云的 BERT 为何败于商业环境?】大型基于 Transformer 的预训练模型最近在许多自然语言处理任务取得了最先进的结果 。 这些模型是为一般的语言建模任务而训练的 , 它们学习语言的一些基本结构特征 , 这些特征使它们能够更好地跨域泛化 。 当给定少量标记的目标域数据时 , 它们在跨域设置中表现得非常好 。 但是 , 处理没有标记的目标域数据的动态跨域设置的挑战仍然存在 。 在微调阶段 , 将外部领域无关的知识(即句法信息) , 嵌入到预训练模型中 , 有望在数据稀缺的商业环境中实现更好的健壮性和可伸缩性 。
推荐阅读
- 『苹果』原创 iPhone12再次传来好消息,首发A14仿生处理器,价格更感人!
- 『线程』AMD 将推出 7nm R3 处理器:4 核 8 线程,16MB 三级缓存
- 「骁龙」一加8Pro现身跑分网站:骁龙865处理器单核906多核3398卖多少?
- 华为荣耀■华为突然宣布新5G处理器,高通直叹气,很无奈,差距又拉大了
- ROM乐园TB@一加8Pro现身跑分网站:骁龙865处理器单核906多核3398卖多少?
- 「图像处理」李沐团队提出最强ResNet改进版,多项任务达到SOTA | 已开源
- 「华为荣耀」能用GMS的华为手机海外上市,搭载麒麟710处理器
- 排行榜■AMD 处理器排行榜第一 跑分破百万 猜猜是哪款处理器
- 「处理器」百元处理器也开战 两款锐龙3处理器曝光
- 「Al科技鼠」手机处理器市场份额:高通居首,华为仅排第五,还是没能胜过三星
