|超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成( 三 )

本文插图

前文指出过，此项研究的生成过程是先采样一些样本，然后使用〖-E〗_θ (x)作为分数从这些样本中进行再次采样。以上的 Joint Bit-Base Worst 是〖-E〗_θ (x)最低的样本（也就是分类器认为最不像真实文本的）。这个样本中，词组「these grants」重复了两次。重复生成词组是目前语言模型的常见问题 [5] ，因此分类器会根据这个特点，很容易判断出这句话不是真实文本，由此在再采样过程中，这个分数很低的样本基本不可能被采样到。值得一提的是，本文提出的模型训练时并没有明确要求它不生成重复词组，但分类器自动发现重复词组是一个语言模型生成文本的明显特征，因此残差能量模型生成的重复词组明显减少（详见论文）。
总结来看，残差能量模型是比 state-of-the-art 的 transformer 语言模型效果更好的全局归一化模型。它的训练方式只是训练一个辨别真实文本还是语言模型生成的分类器，因此非常简单稳定，同时还拥有 NCE 带来的理论正确保证。
作者在实验中使用了语言模型作为测试任务，但实际上很容易推广到条件生成，比如机器翻译或者文本摘要。
另外，作者提出的能量模型和 GAN 的思路有很大不同：GAN 使用分类判别器的目的是改进生成器，最后并没有使用分类判别器；而残差能量模型最终使用分类器，而且训练过程中不去试图改变分类器，因此训练过程更加稳定。最后，全局归一化（globally normalized）的能量模型虽然在 Yann Lecun 等人看来是未来的重要方向（https://iclr.cc/virtual_2020/speaker_7.html），但目前还没有得到广泛重视。作者认为这里有很多未来工作的可能方向，比如和隐变量结合等。
引用：
[1]: Bakhtin, Anton, Yuntian Deng, Sam Gross, Myle Ott, Marc'Aurelio Ranzato, and Arthur Szlam.''Energy-Based Models for Text.'' arXiv (2020): arXiv-2004.
[2]: Zellers, Rowan, Ari Holtzman, Hannah Rashkin, Yonatan Bisk, Ali Farhadi, Franziska Roesner, and Yejin Choi. ''Defending against neural fake news.'' In Advances in Neural Information Processing Systems, pp. 9051-9062. 2019.
[3]: Gutmann, Michael, and Aapo Hyv?rinen. ''Noise-contrastive estimation: A new estimation principle for unnormalized statistical models.'' In Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, pp. 297-304. 2010.
[4]: Ma, Zhuang, and Michael Collins. ''Noise contrastive estimation and negative sampling for conditional models: Consistency and statistical efficiency.'' arXiv preprint arXiv:1809.01812 (2018).
[5]: Holtzman, Ari, Jan Buys, Li Du, Maxwell Forbes, and Yejin Choi. ''The curious case of neural text degeneration.'' arXiv preprint arXiv:1904.09751 (2019).
[6]: Liu, Yinhan, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. ''Roberta: A robustly optimized bert pretraining approach.'' arXiv preprint arXiv:1907.11692 (2019).

|超越SOTA Transformer,哈佛,FAIR提出基于残差能量模型的文本生成( 三 )

推荐阅读

智能家居科技 14还能这么用？揪出凶手，到底谁在窥探你的隐私？，iOS

视频|真 · 拦路虎！的哥开车偶遇东北虎，默默对视20分钟……

OLED|扭转国产OLED行业口碑！卢伟冰称1.5K将是手机行业新主流

『床』床的材质有哪些床要怎么选购

谷歌|几个月前嘲笑iPhone取消耳机孔的谷歌：终于自己破功了

金正恩视察灾区重建工作胞妹陪同前往系两个月来首次露面

林正英真的会茅山术吗,林正英怎么会懂那么多茅山道术-

吃明虾上火吗？明虾的营养价值有哪些?

张歆艺|张歆艺穿制服躺床上玩闹，穿短裙单脚卖力抬高，姿势豪迈不怕走光

喹啉铜的使用和禁忌

产妇没有奶水如何催奶,刚生了孩子没有奶水怎么办怎么催奶-

青海荒漠化治理助力三江源保护

未说育儿|这些行为最“伤”胎儿，你每天都在做，孕妈要知道

腾讯科技网易聆讯后资料披露董事会成员名单，去年向高管及董事支付1760万薪酬

答摩健康|为什么你做的明年计划不靠谱？因为你是用今年的脑子想的！

数据宝|仅24只，数说A股：基金扎堆的牛股大跌6％！“小而美”股票名单来了

中国基金报|重要信号！货币ETF规模激增330亿啥情况？

三分亮剑|危险决定直接影响邻国安全，韩国启动紧急应对，日本不再遮遮掩掩

江苏经济报@江苏227家交通运输企业获融资授信8亿元

蚝油打开后必须要放冰箱吗