GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车

首先,请先看一段“正经”的文字:
他笑意中的那份温柔,只想给她好好珍藏,即便这一切不会发生,至少在他的世界里,她是无忧无虑的快乐的 。就连他对她的关心,她都不在意了,还有什么不放心的呢?“好,我答应你 。不过,如果我们能有个孩子,我一定做个好爸爸 。”
桥豆麻袋!!!
这难道不是什么某某天堂、某江文学、某点中文上的小说情节?
GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车
文章图片
误会了误会了 。
这是最新发布的全球最大规模中文预训练模型“中文版GPT-3”——PLUG的力作 。
270亿的参数规模,跟GPT-3一样是“万能写作神器” 。
出于好奇,我第一时间就去上手试了试,没想到只是输入了四个字 。
泛起笑意,
GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车
文章图片
就给出了如此结果 。
这个PLUG,有点意思啊~
GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车
文章图片
竟然擅长的是这个?
接下来,我又进行了一波尝试,调戏一下PLUG的创作实力 。
输入「他正要离开」,看它怎么接 。
PLUG果然很懂!
,却见他站到了自己身前,一下子拉住了她的手,用一种很奇怪的语调说道:“我的心情很坏,很生气,不过“他看着她,一字一句的说道:“你能不能说的快一点,我不想伤害你 。“看着她一脸的冷漠,他的心中微微一酸,但是很快又笑了,温柔的笑了笑:“放心……
GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车
文章图片
有一说一,生成长文本的性能还是相当不错,并且提供了4个文本长度选项(32~512字) 。
不过这内容……
难不成,我喜欢XX文的秘密被发现了?
GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车
文章图片
别误会,其实PLUG也能生成“克制”一些的 。
比如:输入「阿sir,你看看他」,结果就显得很正常嘛~
甚至还特意生成了繁体字小说,营造出一种港片的氛围感 。
(阿sir,你看看他)們幾時對阿爸、阿媽、阿婆笑過;你再看看他們幾時對你笑過 。阿爸、阿媽、阿婆,你們笑笑就好了 。其實,他們有笑,也有淚……(此处省略200+字)阿sir,你是否真的愛你的父母?
GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车
文章图片
除了擅长写小说,PLUG还能写专业文稿、进行智能问答、生成诗词和菜谱等等 。
就比如撰写专业文稿:
GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车
文章图片
帮你解答生活常识,官网给出了贴心(不是)的示例:
程序员脱发用什么洗发水好?
GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车
文章图片
三个月打造中文最强GPT-3
说了这么多,要达到这样的效果,这个中文最强GPT-3究竟如何炼成?
PLUG,Pre-training for Language Understanding and Generation,顾名思义,就是集语言理解(NLU)和生成(NLG)能力于一身 。
要实现这一点,据团队介绍,这一模型是达摩院此前提出的两种自研模型——NLU语言模型StructBERT、NLG语言模型PALM的融合 。
此外,跟GPT-3的单向建模方式不同的是,它采用了编码器-解码器(encoder-decoder)的双向建模方式 。
GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车
文章图片
具体来说,整个训练过程分为两个阶段 。
第一阶段,以达摩院自研的语言理解模型——StructBERT作为编码器 。
简单来说,它是在句子级别和词级别两个层次的训练目标中,加强对语言结构信息的建模,从而提高模型的语法学习能力 。
这也使得PLUG具有输入文本双向理解能力,能够生成和输入更相关的内容 。
这个过程共训练了300B tokens训练数据 。
第二阶段,将这个编码器用于生成模型的初始化,并外挂一个6层、8192个隐藏层节点数的解码器,共计训练了100B tokens的训练数据 。


推荐阅读