AI生成的假新闻难以识别，那就用神经网络来对抗吧( 五 ) 选自arXiv作

架构

研究者使用了最近较为流行的Transformer语言模型(Vaswanietal.,2017) ， Grover的构建基于和GPT-2相同的架构(Radfordetal.,2019) 。研究人员考虑了三种模型大小。

最小的Grover-Base使用了12个层，有1.17亿参数，和GPT及Bert-Base相同。第二个模型是Grover-Large ，有24个层， 3.45亿参数，和Bert-Large相同。最大的模型Grover-Mega有48个层和15亿参数，与GPT-2相同。

数据集

研究者创建了RealNews大型新闻文章语料库，文章来自CommonCrawl网站。训练Grover需要大量新闻文章作为元数据，但目前并没有合适的语料库，因此研究人员从CommonCrawl中抓取信息，并限定在5000个GoogleNews新闻类别中。

该研究使用名为「Newspaper」的Python包来提取每一篇文章的主体和元数据。研究者抓取2016年12月到2019年3月的CommonCrawl新闻作为训练集， 2019年4月的新闻则作为验证集。去重后， RealNews语料库有120G的未压缩数据。

训练

对于每一个Grover模型，研究人员使用随机采样的方式从RealNews中抽取句子，并将句子长度限定在1024词以内。其他超参数参见论文附录A 。在训练Grover-Mega时，共迭代了80万轮，批大小为512 ，使用了256个TPUv3核。训练时间为两周。

语言建模效果：数据、上下文（context）和模型大小对结果的影响

研究人员使用2019年4月的新闻作为测试集，对比了Grover和标准通用语言模型的效果。测试中使用的模型分别为：通用语言模型，即没有提供上下文语境作为训练，且模型必须生成文章主体。另一种则是有上下文语境的模型，即使用完整的元数据进行训练。在这两种情况下，使用困惑度（perplexity）作为指标，并只计算文章主体。