AI生成的假新闻难以识别,那就用神经网络来对抗吧( 五 )

架构

研究者使用了最近较为流行的Transformer语言模型(Vaswanietal.,2017) , Grover的构建基于和GPT-2相同的架构(Radfordetal.,2019) 。 研究人员考虑了三种模型大小 。

最小的Grover-Base使用了12个层 , 有1.17亿参数 , 和GPT及Bert-Base相同 。 第二个模型是Grover-Large , 有24个层 , 3.45亿参数 , 和Bert-Large相同 。 最大的模型Grover-Mega有48个层和15亿参数 , 与GPT-2相同 。

数据集

研究者创建了RealNews大型新闻文章语料库 , 文章来自CommonCrawl网站 。 训练Grover需要大量新闻文章作为元数据 , 但目前并没有合适的语料库 , 因此研究人员从CommonCrawl中抓取信息 , 并限定在5000个GoogleNews新闻类别中 。

该研究使用名为「Newspaper」的Python包来提取每一篇文章的主体和元数据 。 研究者抓取2016年12月到2019年3月的CommonCrawl新闻作为训练集 , 2019年4月的新闻则作为验证集 。 去重后 , RealNews语料库有120G的未压缩数据 。

训练

对于每一个Grover模型 , 研究人员使用随机采样的方式从RealNews中抽取句子 , 并将句子长度限定在1024词以内 。 其他超参数参见论文附录A 。 在训练Grover-Mega时 , 共迭代了80万轮 , 批大小为512 , 使用了256个TPUv3核 。 训练时间为两周 。

语言建模效果:数据、上下文(context)和模型大小对结果的影响

研究人员使用2019年4月的新闻作为测试集 , 对比了Grover和标准通用语言模型的效果 。 测试中使用的模型分别为:通用语言模型 , 即没有提供上下文语境作为训练 , 且模型必须生成文章主体 。 另一种则是有上下文语境的模型 , 即使用完整的元数据进行训练 。 在这两种情况下 , 使用困惑度(perplexity)作为指标 , 并只计算文章主体 。


推荐阅读