量子位|谷歌开源“穷人版”摘要生成NLP模型:1000个样本就能打败人类
晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI
BERT、GPT-2、XLNet等通用语言模型已经展现了强大的威力 , 它们可以应付各类任务 , 比如文本生成、问答 。 当这些模型对各种语言任务进行微调时 , 可以达到SOTA性能 。
本文插图
以上这些NLP模型都是“通才” , 虽然全面 , 但在面向特定任务时需要微调 , 训练数据集也十分庞大 , 非一般人所能承受 。
如果开发一个非通用NLP模型 , 专门针对某项具体任务 , 在降低训练成本的同时 , 性能会不会提高呢?
这就是谷歌发布的“天马”(PEGASUS)模型 , 它专门为机器生成摘要而生 , 刷新了该领域的SOTA成绩 , 并被ICML 2020收录 。
本文插图
“天马”模型仅使用1000个样本进行训练 , 就能接近人类摘要的水平 , 大大减少了对监督数据的需求 , 创造了低成本使用的可能性 。
从填空到生成摘要
PEGASUS的全称是:利用提取的间隙句进行摘要概括的预训练模型(Pre-training with Extracted Gap-sentences for Abstractive Summarization) 。 就是设计一种间隙句生成的自监督预训练目标 , 来改进生成摘要的微调性能 。
在之前的NLP研究中 , 自监督预训练对下游的目标并不清楚 , 可能是文本生成、也可能是摘要提取 , 模型倾向于通用性 。
而来自谷歌的研究者认为 , 自监督预训练目标越接近最终的下游任务 , 微调性能越好 。
那论文标题中的间隙句(Gap-sentences)又是什么意思?
在“天马”模型的预训练中 , 研究者从一段文档中删掉一些句子 , 让模型进行恢复任务 。 这些隔空删掉的句子即为间隙句 。
这样一项具有挑战性的任务促使模型学习发现一般事实的能力 , 以及学习如何提取从整个文档中获取的信息 。
本文插图
【量子位|谷歌开源“穷人版”摘要生成NLP模型:1000个样本就能打败人类】
谷歌发现 , 选择“重要”句子去遮挡效果最好 , 这会使自监督样本的输出与摘要更加相似 。
作者选择了12个不同数据集 , 内容丰富多样 , 包括新闻、科学论文、专利文件、短篇小说、电子邮件、法律文件和使用说明 , 表明该模型框架适用于各种主题 。
与谷歌之前提出的T5对比 , 参数数量仅为T5的5% 。
谷歌根据ROUGE标准对输出结果进行评判 , 通过查找与文档其余部分最相似的句子来自动识别这些句子 。
ROUGE使用n元语法重叠来计算两个文本的相似度 , 分数从0到100 。
1000个训练样本即超过人类
尽管PEGASUS在大型数据集上表现出了卓越的性能 , 但令人惊讶的是 , “天马”模型并不需要大量的样本来进行微调 , 就可以达到近乎SOTA的性能 。
下图展示了在四个选定的摘要数据集中 , ROUGE得分与监督样本数量的关系 。 虚线表示具有全监督但没有预训练的Transformer编码器-解码器的性能 。
本文插图
与基线相比 , 即使仅用1000个微调样本 , “天马”在大多数任务中的性能还是要好一些 。 要考虑到 , 在某些实际情况下 , 样本数量还要多几个数量级 。
这种“样本效率”极大地提高了文本摘要模型的实用性 , 因为它大大降低了监督数据收集的规模和成本 。
除了机器给出的ROUGE评分外 , 谷歌还进行了一项鉴别摘要的“图灵测试” 。
谷歌将模型生成的摘要和人类提取的摘要放在一起 , 给用户进行评估 。 在3个不同数据集上进行的实验表明 , 打分的人有时会更喜欢机器生成的摘要 。
推荐阅读
- 新机发布,谷歌|一加 Nord 将预装谷歌的拨号和短信应用程序
- CSDN|由 Apache 说开,中国开源项目已经走向世界!
- AI财经社|谷歌云为何“放弃”中国市场?有人为它算了账,投入产出比太低
- 新机发布|一加Nord手机采用谷歌电话、短信,售价约3495元
- 行业互联网|量子计算机潜力巨大(新技术 新进展③)
- 谷歌|谷歌正研发双屏 Chromebook 以回应微软 Surface Neo
- 大数据&云计算|56亿元大单!TikTok(海外版抖音)与谷歌云签约 不再使用AWS
- 行业互联网|商汤联合创始人林达华:一个优秀的开源项目应有持久生命力
- 微信|为让手环能回复微信信息 OPPO工程师用上了谷歌为汽车提供的功能
- 谷歌|谷歌要研发新系统,看齐鸿蒙系统!网友:安卓的好日子快结束了!
