AI生成的假新闻难以识别,那就用神经网络来对抗吧( 五 )
架构
研究者使用了最近较为流行的Transformer语言模型(Vaswanietal.,2017) , Grover的构建基于和GPT-2相同的架构(Radfordetal.,2019) 。 研究人员考虑了三种模型大小 。
最小的Grover-Base使用了12个层 , 有1.17亿参数 , 和GPT及Bert-Base相同 。 第二个模型是Grover-Large , 有24个层 , 3.45亿参数 , 和Bert-Large相同 。 最大的模型Grover-Mega有48个层和15亿参数 , 与GPT-2相同 。
数据集
研究者创建了RealNews大型新闻文章语料库 , 文章来自CommonCrawl网站 。 训练Grover需要大量新闻文章作为元数据 , 但目前并没有合适的语料库 , 因此研究人员从CommonCrawl中抓取信息 , 并限定在5000个GoogleNews新闻类别中 。
该研究使用名为「Newspaper」的Python包来提取每一篇文章的主体和元数据 。 研究者抓取2016年12月到2019年3月的CommonCrawl新闻作为训练集 , 2019年4月的新闻则作为验证集 。 去重后 , RealNews语料库有120G的未压缩数据 。
训练
对于每一个Grover模型 , 研究人员使用随机采样的方式从RealNews中抽取句子 , 并将句子长度限定在1024词以内 。 其他超参数参见论文附录A 。 在训练Grover-Mega时 , 共迭代了80万轮 , 批大小为512 , 使用了256个TPUv3核 。 训练时间为两周 。
语言建模效果:数据、上下文(context)和模型大小对结果的影响
研究人员使用2019年4月的新闻作为测试集 , 对比了Grover和标准通用语言模型的效果 。 测试中使用的模型分别为:通用语言模型 , 即没有提供上下文语境作为训练 , 且模型必须生成文章主体 。 另一种则是有上下文语境的模型 , 即使用完整的元数据进行训练 。 在这两种情况下 , 使用困惑度(perplexity)作为指标 , 并只计算文章主体 。
推荐阅读
- 王若麟|从帅气新闻主播变肿胀油腻男,这个男演员把一手王炸牌打得稀烂
- 明星|瘦等于美?这些骨瘦如柴的女明星,有的瘦到没眼看,有的难以生育
- 杨幂|杨幂穿性感内衣的新闻又上了热搜,网友却怒批她只会宣传身材美貌
- 林正英|林正英死后,用这样的方式下葬,知道内幕后,网友大呼:难以置信
- Angelababy|《中国新闻社》点名肖战,肖战直言有一点不自信,会积极承担责任
- 影帝|37岁影帝突然去世!半个娱乐圈哭了:难以置信
- 新闻记者|日剧《新闻记者》剧评:超写实讽刺真实事件,米仓凉子最催泪的震撼演出
- 豆瓣|总局收视排行:雪中悍刀行第25,王牌部队没上榜,榜首难以超越
- 央视|央视春节晚会即将开始,《新闻联播》主持人泄露了节目的制作过程
- 肖战|王力宏事件再次发酵,前妻称他有前科,设局想要陷害她,难以想象
