机器之心|从word2vec开始，说下GPT庞大的家族系谱( 十 )

[4] Ashish Vaswani and Noam Shazeer and Niki Parmar and Jakob Uszkoreit and Llion Jones and Aidan N. Gomez and Lukasz Kaiser and Illia Polosukhin (2017). Attention Is All You NeedCoRR, abs/1706.03762.
[5] Zihang Dai and Zhilin Yang and Yiming Yang and Jaime G. Carbonell and Quoc V. Le and Ruslan Salakhutdinov (2019). Transformer-XL: Attentive Language Models Beyond a Fixed-Length ContextCoRR, abs/1901.02860.
[6] P. J. Liu, M. Saleh, E. Pot, B. Goodrich, R. Sepassi, L. Kaiser, and N. Shazeer. Generating wikipedia by summarizing long sequences. ICLR, 2018.
[7] Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.
[8] Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI Blog, 1(8), 9.
[9] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, & Dario Amodei. (2020). Language Models are Few-Shot Learners.
[10]Jacob Devlin and Ming-Wei Chang and Kenton Lee and Kristina Toutanova (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingCoRR, abs/1810.04805.
[11]Zhilin Yang and Zihang Dai and Yiming Yang and Jaime G. Carbonell and Ruslan Salakhutdinov and Quoc V. Le (2019). XLNet: Generalized Autoregressive Pretraining for Language UnderstandingCoRR, abs/1906.08237.
[12] attention 机制及 self-attention(transformer). Accessed at: https://blog.csdn.net/Enjoy_endless/article/details/88679989
[13] Attention 机制详解（一）——Seq2Seq 中的 Attention. Accessed at: https://zhuanlan.zhihu.com/p/47063917
[14]一文看懂 Attention（本质原理 + 3 大优点 + 5 大类型.Accessed at:https://medium.com/@pkqiang49/%E4%B8%80%E6%96%87%E7%9C%8B%E6%87%82-attention-%E6%9C%AC%E8%B4%A8%E5%8E%9F%E7%90%86-3%E5%A4%A7%E4%BC%98%E7%82%B9-5%E5%A4%A7%E7%B1%BB%E5%9E%8B-e4fbe4b6d030
[15]The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning).Accessed at:http://jalammar.github.io/illustrated-bert/
[16] Yang, Zhilin, et al. "Xlnet: Generalized autoregressive pretraining for language understanding." Advances in neural information processing systems. 2019.
[17] Dai, Zihang, et al. "Transformer-xl: Attentive language models beyond a fixed-length context." arXiv preprint arXiv:1901.02860 (2019).
[18] NLP——GPT 对比 GPT-2. Accessed at: https://zhuanlan.zhihu.com/p/96791725
[19] 深度学习：前沿技术 - GPT 1 & 2. Accessed at: http://www.bdpt.net/cn/2019/10/08/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%EF%BC%9A%E5%89%8D%E6%B2%BF%E6%8A%80%E6%9C%AF-gpt-1-2/

机器之心|从word2vec开始，说下GPT庞大的家族系谱( 十 )

推荐阅读

大熊猫|世界五大投资币之首！2022版熊猫纪念币来了：一套14枚

[烽火狼烟]中国将开建第4艘航母，将使用电磁弹射，美航母趴窝之际

当作为一个小男生能力和和经济完全匹配不上另一半是不是该放弃。

微信进一步规范“自媒体”：准确标注信息来源

母亲节发多少红包比较合适一点母亲节发多少红包比较合适

占其|通鼎互联：控股股东通鼎集团解除质押810万股，累计质押占比96.12%

人民日报客户端青海频道|第21届青洽会海东力推四大品牌产业

七夕又称乞巧节，乞巧的含义是什么？

周一见|家里有矿！盘点《拳皇》里的十位超级富二代，红丸垫底，神乐上榜

万象之昼夜观察|美国将改革弹药厂系统

官员＂提前退休＂前1年疯狂敛财辞职14年主动投案

犯罪嫌疑人|非法转租95号段供网络诈骗 15名犯罪嫌疑人被检察机关起诉

痛风喝什么牌子苏打水(痛风为什么要喝苏打水)

洋地黄制剂怎么样

养生沈医师|多半会有此些表现，不妨自测一下，希望你1个也没有，肺不好的人

概念|太狂热！搭上量子科技概念，蓝盾转债3个交易日最高涨超140%

津爱改装车|「优秀企业推荐」南宁医疗科技公司优秀企业推荐公示

windows10家庭中文版怎么升级专业版,win10家庭版升级到win10专业版-

中新经纬|上半年客运量规模恢复至去年同期45.2%

黄山毛峰怎么分辨好坏,如何判断黄山毛峰好坏