|超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成( 三 )


本文插图

前文指出过 , 此项研究的生成过程是先采样一些样本 , 然后使用〖-E〗_θ (x)作为分数从这些样本中进行再次采样 。 以上的 Joint Bit-Base Worst 是〖-E〗_θ (x)最低的样本(也就是分类器认为最不像真实文本的) 。 这个样本中 , 词组「these grants」重复了两次 。 重复生成词组是目前语言模型的常见问题 [5] , 因此分类器会根据这个特点 , 很容易判断出这句话不是真实文本 , 由此在再采样过程中 , 这个分数很低的样本基本不可能被采样到 。 值得一提的是 , 本文提出的模型训练时并没有明确要求它不生成重复词组 , 但分类器自动发现重复词组是一个语言模型生成文本的明显特征 , 因此残差能量模型生成的重复词组明显减少(详见论文) 。
总结来看 , 残差能量模型是比 state-of-the-art 的 transformer 语言模型效果更好的全局归一化模型 。 它的训练方式只是训练一个辨别真实文本还是语言模型生成的分类器 , 因此非常简单稳定 , 同时还拥有 NCE 带来的理论正确保证 。
作者在实验中使用了语言模型作为测试任务 , 但实际上很容易推广到条件生成 , 比如机器翻译或者文本摘要 。
另外 , 作者提出的能量模型和 GAN 的思路有很大不同:GAN 使用分类判别器的目的是改进生成器 , 最后并没有使用分类判别器;而残差能量模型最终使用分类器 , 而且训练过程中不去试图改变分类器 , 因此训练过程更加稳定 。 最后 , 全局归一化(globally normalized)的能量模型虽然在 Yann Lecun 等人看来是未来的重要方向(https://iclr.cc/virtual_2020/speaker_7.html) , 但目前还没有得到广泛重视 。 作者认为这里有很多未来工作的可能方向 , 比如和隐变量结合等 。
引用:
[1]: Bakhtin, Anton, Yuntian Deng, Sam Gross, Myle Ott, Marc'Aurelio Ranzato, and Arthur Szlam.''Energy-Based Models for Text.'' arXiv (2020): arXiv-2004.
[2]: Zellers, Rowan, Ari Holtzman, Hannah Rashkin, Yonatan Bisk, Ali Farhadi, Franziska Roesner, and Yejin Choi. ''Defending against neural fake news.'' In Advances in Neural Information Processing Systems, pp. 9051-9062. 2019.
[3]: Gutmann, Michael, and Aapo Hyv?rinen. ''Noise-contrastive estimation: A new estimation principle for unnormalized statistical models.'' In Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, pp. 297-304. 2010.
[4]: Ma, Zhuang, and Michael Collins. ''Noise contrastive estimation and negative sampling for conditional models: Consistency and statistical efficiency.'' arXiv preprint arXiv:1809.01812 (2018).
[5]: Holtzman, Ari, Jan Buys, Li Du, Maxwell Forbes, and Yejin Choi. ''The curious case of neural text degeneration.'' arXiv preprint arXiv:1904.09751 (2019).
[6]: Liu, Yinhan, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. ''Roberta: A robustly optimized bert pretraining approach.'' arXiv preprint arXiv:1907.11692 (2019).


推荐阅读