模型|给点提示,就可以自动续写故事!NLP最强文本生成模型GPT-3来了,网友:亲测好用( 二 )
GPT-3:超大模型 , 无需微调
其实 , GPT-3的出色性能还不知如此 。 这个版本的模型是在今年的五月份刚刚被推出 , 与之前的GPT-2本相比 , 它在参数上高出了100倍 。 更重要的是 , GPT-3实现了无需微调的最佳SOTA 。
一般来说 , GPT自然语言模型工作分为上游预训练和下游特定任务两个主要阶段 。 无需微调 , 意味着在经过大型语料库的预训练后 , GPT-3在处理诸如语言翻译、完型填空、文本生成等常见NLP任务时 , 无需针对下游任务作出特殊处理 。
同时 , 它也意味着其处理任务的性能表现 , 主要取决于它的预训练过程 。
首先从预训练阶段的模型大小来看 , 从论文中的数据显示 , 在经过几项简单的任务训练(删除文本中的随机符号)后 , 模型越大学习曲线越陡峭 , 而越是陡峭 , 代表学习性能越强 。 因此 , 可以说下游任务的学习能力主要由模型大小决定 。
本文插图
在GPT-3中的模型和体系架构与GPT-2基本一致 , 包括其中描述的修改后的初始化 , 预规范化和可逆记号化 , 不同之处在于 , 在GPT-3各层中使用了Sparse Transformer架构。 同时 , 研究人员训练了8种不同大小的模型 , 范围从1.25亿个参数到1,750亿个参数 , 三个数量级 。 最后一个为“GPT-3” 。
可以看出 , 模型越大 , 它在可训练总数、层级数、学习比率方面的表现越高 。
本文插图
另外 , 从语料库来讲 , 模型越大越需要大的语料库作为支撑 , GPT-3采用的数据集(Common Crawl)包含了近一万亿个单词 。
本文插图
CommonCrawl数据是从2016年到2019年 , 每个月的CommonCrawl的41个分片中下载的 , 构成了过滤前的45TB压缩明文和过滤后的570GB , 大致相当于4000亿字节 。
请注意 , 在训练过程中 , 并非按大小对数据集进行采样 , 而是较高质量的数据集采样频率更高 , 因此 , 在训练过程中CommonCrawl和Books2数据集采样的次数少于一次 , 而其他数据集则采样了2 -3次 。 这本质上是接受了少量的过度拟合 , 换取了更高质量的训练数据 。
因此 , 基于超大模型和与数据库的GPT-3在预训练阶段能够表现出极好的性能 。
存在一定的局限性
不过 , 从此前的测试中 , 我们也可以看出GPT-3的文本生成还是存在一些局限性的 。 具体我们可以从Q&A问答中来看一下 。 对于常识性性问题 , GPT-3还是非常擅长的 。 如 ,
本文插图
GPT-3自身的学习经验主要是从网上抓取 , 因此在回答一些常识性问题时 , 它可以从网上找到准确的对应答案 。 但在处理对于一些“不言而喻”的问题时 , 它就可以出现错误 , 比如下文:
Q:烤面包机和铅笔哪一个较重?
A:铅笔比烤面包机重 。
本文插图
虽然在这些问题上存在缺陷 , 不过 , GPT-2在处理一些逻辑性问题 , 或者阅历理解任务时 , 几乎可以达到人类的水平 。 因此 , 在很多方面可以作为人类很好的辅助工具 。
相关链接:雷锋网雷锋网雷锋网
论文地址:
【模型|给点提示,就可以自动续写故事!NLP最强文本生成模型GPT-3来了,网友:亲测好用】https://lambdalabs.com/blog/demystifying-gpt-3/
推荐阅读
- 无线泉州新媒体|引起多国关注,俄媒:或许是演练,伊朗突然将航母模型拖至海面
- 【】CBA-浙江91:82胜山西
- 处理|大连疫情特征提示:冷冻海鲜产品加工处理工作场所有利于新冠病毒传播
- 遏制酒后驾驶行为,俄计划所有汽车安装“酒精锁”
- 人民日报|银保监会风险提示:警惕借金融创新之名搞非法集资
- 格力电器斥资3.39亿元回购股份
- 我国共享单车将达3000万辆
- 深圳:“宅经济”带热电子消费
- 腾讯网易相继加码 电竞产业“香”在哪
- 福奇为中国说了句公道话
