AI生成的假新闻难以识别，那就用神经网络来对抗吧(11) 选自arXiv作

2.特征能否被捕捉取决于对判别器的选择

对每一个时间步，从整体上来说，仅有生成器使用了top-p超参数。因此，如果一个判别器使用别的方式对文本进行建模，这个生成器需要更多的时间去定位被截断的1-p分布长尾。这可能能够解释为什么Bert在作为判别器时表现较Grover更差。

3.方差缩减时需要谨慎避开的「甜蜜陷阱」（sweetspot）

不缩减模型方差和强力缩减模型方差都会带来问题。在缩减的参数中可能存在一个「甜蜜陷阱」（sweetspot）区域，去决定多大程度上需要截断分布，使判别变得困难。在图7中，研究人员展示了在不同采样阈值下的Grover-Mega判别器的表现。结果确实显示出了一个「甜蜜陷阱」。对于判别器，当p介于0.92和0.98之间时，判别工作是最困难的。

有趣的是，研究人员注意到攻击方top-p阈值在Bert-Large模型远低于这一阈值在Grover-Large中的值，即使两个模型有着同样的结构。这一结果支持了研究人员的猜测，即Bert对语言的建模方式和Grover非常不同。使用低top-p阈值似乎不能帮助模型获得丢失的长尾信息。

----AI生成的假新闻难以识别，那就用神经网络来对抗吧//----江苏龙网 http://www.jiangsulong.com //

图6：Grover-Mega的困惑度，取自每个位置的平均值（以元数据为条件）。研究人员选取了p=1（随机采样）和p=0.96时Grover-Mega生成的文本以及人工书写的文本。随机采样的文本有着比人工书写的文本更高的困惑度，而且这个差距随着序列长度的增加而加大。这表明，不减少方差的抽样通常会导致生成结果落在真实分布以外。