GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车( 二 )


此外,PLUG还能为目标任务做针对性优化 。
上一回说到,GPT-3并没有利用微调和梯度更新,而是通过指定任务、展示少量演示,来与模型文本进行交互,完成各种任务 。
因此在面对新任务时候,不需要重新收集大量的带标签数据 。但不可避免的,生成的效果不足 。
比如,犯低级错误就是GPT-3被人诟病比较多的一点 。
而PLUG的能力更加全面,既可以实现与GPT-3类似的零样本生成功能,也可以利用下游训练数据微调(finetune)模型,提升特定任务的生成质量 。
当然,效果实现的关键,还少不了算力和数据 。
GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车
文章图片
PLUG负责人表示,原本计划用128张A100训练120天炼成,不过由于阿里云、算法优化等达摩院多方力量的参与,以及加速手段的有效利用,成功将日程缩短到三分之一 。
最后,只烧了35天就达到了这样的效果 。
前面也提到,PLUG的参数量达到了270亿,中文训练数据量也达到了1T以上 。
在语言理解任务上,PLUG以80.614分刷新了CLUE分类任务榜单记录 。
GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车
文章图片
而在语言生成任务上,据团队介绍,其多项应用数据较业内最优水平提升了8%以上 。
语言模型体系再添一员大将
如果再把PLUG说成是“中文版GPT-3”,似乎就不太准确了 。
耗时3个月、270亿参数规模、一发布就给体验端口……
但与此同时,这些关键词的背后,仍然留给读者一些疑问:
3个月是如何做到的?当前的参数规模是终点吗?为何现阶段就免费开放?
阿里深度语言模型体系负责人永春给出了一一解答 。
首先,时间问题 。主要有两个方面的原因 。
从人力的角度来说,永春没有谈具体的数字,但此次涉及阿里的多个团队群策群力共同完成的,当中的训练时间也就大大缩短 。
再加上,阿里以往的自研模型已经产生了更多的业务需求,促成了PLUG的开发,这也是阿里整体技术路线中的一环 。
GPT-3的出现,给中国的一些玩家触动很大:什么时候我们能出个中文版的同类模型?
阿里作为其中之一的企业,利用自身的技术、计算资源的优势,率先给出Demo 。
永春表示,希望通过PLUG的发布,建立起与技术同行之间的桥梁 。
要知道,GPT-3到目前也还没有做到完全开放 。
不过,团队似乎并不担心PLUG发布之后的一些不确定性 。(手动狗头)
比如,出现一些低级错误 。
反而笑着说,之前GPT-3不也是因为大家吐槽才火的么?丢给技术圈去检验,这些问题都是不可避免的 。
GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车
文章图片
而这样的开源开放,正好是这个技术团队的一大底色 。
去年,阿里达摩院发布了自研深度语言模型体系,包括6大自研模型 。
通用语言模型StructBERT、多模态语言模型StructVBERT、多语言模型VECO、生成式语言模型PALM……他们一直在致力于陆陆续续将模型开源出来 。
永春透露,在PLUG发布这段期间,达摩院宣布将开源阿里巴巴语言模型体系部分重要模型,目前正在走流程中 。
至于之后的计划,团队表示2000亿级的参数规模正在规划中,并进一步提升文本生成质量 。
而在应用领域,他们还将专门针对医疗领域做下游数据训练 。
最终目标是希望将这个模型实际落地,提升NLP技术在方方面面的实力,比如能源、通信、司法等 。
也诚如阿里达摩院语言技术实验室负责人司罗所说,达摩院NLP团队将进一步攻克自然语言处理领域科研难题,完善中文及跨语言人工智能基础设施,让AI没有难懂的语言,并探索通用人工智能之路 。
对了,PLUG刚刚完成最后一波调控,目前已开放了测试体验接口(仅供学术目的测试,需同意其相关约定) 。
【GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车】
GPU|128张GPU烧出“中文版GPT-3” 这文风不是开往幼儿园的车
文章图片


推荐阅读