AI生成的假新闻难以识别,那就用神经网络来对抗吧(11)

2.特征能否被捕捉取决于对判别器的选择

对每一个时间步 , 从整体上来说 , 仅有生成器使用了top-p超参数 。 因此 , 如果一个判别器使用别的方式对文本进行建模 , 这个生成器需要更多的时间去定位被截断的1-p分布长尾 。 这可能能够解释为什么Bert在作为判别器时表现较Grover更差 。

3.方差缩减时需要谨慎避开的「甜蜜陷阱」(sweetspot)

不缩减模型方差和强力缩减模型方差都会带来问题 。 在缩减的参数中可能存在一个「甜蜜陷阱」(sweetspot)区域 , 去决定多大程度上需要截断分布 , 使判别变得困难 。 在图7中 , 研究人员展示了在不同采样阈值下的Grover-Mega判别器的表现 。 结果确实显示出了一个「甜蜜陷阱」 。 对于判别器 , 当p介于0.92和0.98之间时 , 判别工作是最困难的 。

有趣的是 , 研究人员注意到攻击方top-p阈值在Bert-Large模型远低于这一阈值在Grover-Large中的值 , 即使两个模型有着同样的结构 。 这一结果支持了研究人员的猜测 , 即Bert对语言的建模方式和Grover非常不同 。 使用低top-p阈值似乎不能帮助模型获得丢失的长尾信息 。

AI生成的假新闻难以识别,那就用神经网络来对抗吧

----AI生成的假新闻难以识别 , 那就用神经网络来对抗吧//----江苏龙网 http://www.jiangsulong.com //

图6:Grover-Mega的困惑度 , 取自每个位置的平均值(以元数据为条件) 。 研究人员选取了p=1(随机采样)和p=0.96时Grover-Mega生成的文本以及人工书写的文本 。 随机采样的文本有着比人工书写的文本更高的困惑度 , 而且这个差距随着序列长度的增加而加大 。 这表明 , 不减少方差的抽样通常会导致生成结果落在真实分布以外 。


推荐阅读