AI生成的假新闻难以识别，那就用神经网络来对抗吧( 十 ) 选自arXiv作

图5：探索判别Grover-Mega生成结果的弱监督。在没有弱监督的情况下，判别器发现了x个机器生成的文本（来自GroverMega）。对于Grover-Base和Grover-Mega ，判别器发现了5000-x个机器生成的文本，这些文本由较弱的相关生成器给出。当给出的域内样本较少时，生成的弱文本可以提升判别器的性能表现。

模型如何区分人工手写和机器生成的文本？

等式1：最近的最佳通用文本生成任务被认为是一个语言建模问题(Bengioetal.,2003) 。在这一问题中，需要寻找生成文本x的概率，此概率为该文本中每一个词以前面所有词为条件的概率之积。

为什么Grover在检测自己生成的假新闻时效果最好？研究人员猜想部分原因可能是数据偏差，即训练最大化等式1的模型仅能描述人工书写的文本（Ranzatoetal.,2016）。为了验证他们的猜想，研究人员在图6中绘制了Grover-Mega在文本每个位置的困惑度，取阈值p=0.96和p=1时的文本以及人工手写的文本。

之后生成第一个token会导致较高的困惑度。但是，其余位置显示出一种奇怪的模式：人工书写的文本有着比随机采样文本更低的困惑度，而这个差距随着序列长度的增加而加大，表明随机采样通常会导致Grover生成的结果越来越脱离人类语言的分布。然而，限制方差（p=0.96）会降低由此产生的困惑度并限制其增长。

1.限制模型方差同样产生了关键特征

但是在另一方面，限制模型的方差同样留下了一种特征。如同以前的研究采用的top-k采样一样(StrobeltandGehrmann,2019) ，本次研究使用的原子采样也出现了同样的现象。一个人工写成的文章中所有词都高于top-p%阈值的概率是p^n ， n是文本长度。当n增长时，概率下降。然而，对于原子采样的文本，概率低于1?-p的文本被去除。因此文本中所有词的出现概率都在top-p以上，根据这个特征就能进行判别。