ChatGPT 的「神功」,是如何炼成的?( 六 )


这个坚持虽然在一开始 GPT-1 和 GPT-2 时代让其输出效果稍逊于同期 Google 的语言大模型 BERT,但到了 GPT-3 时期,在超级规模网络参数的加持下,GPT 这个 100% 纯粹的生成式 AI 终于迸发出耀眼的光芒,模型输出效果甚至大幅超越了研究人员的预期 。
尽管没有实证,但笔者很倾向认为 GPT-3 的极大成功和 OpenAI 坚定不移的只用上文来训练模型有着某种必然的关系,人的语言沟通也从来都是按顺序表达的,没有谁先把一句话的最后一个词说完才回头考虑上一个词 。从这点来看,GPT 系列模型顺应了人类思考的逻辑,最终由量变推动了质变 。
终于,借助了 Transformer, GPT 这样的超大规模语言模型(GPT-3 有 1750 亿个参数)在不需要标记数据的情况下,可以借助现成的海量标准数据以及超级算力,得到通用的「预训练」版本模型 。
可能有读者会继续问,有了预训练好的模型版本后,GPT 怎么能以适应各种各样的特定任务(或者专业一点,「下游任务」)呢? GPT 论文里给出了简单的改造施工图,附在这里读者们有点直观感性感知即可 。总之通过简单的改造操作,GPT 就能很好适应不同的任务 。只需要在输入部分调整一下就可以了,非常方便 。

ChatGPT 的「神功」,是如何炼成的?

文章插图
补充一句,或许正是因为改造特别方便,OpenAI 的研究人员才能在 GPT-3.5 版之上改造出一个问答专用的 ChatGPT 。虽然还不是基于大杀器 GPT4,但 ChatGPT 所展现出的超强内容生成能力,在这几天已经在大众用户群体里刮起了超级旋风 。
06
从 GPT-3 到
ChatGPT,进化继续
在历史长河里走了过来,终于回到了本文开头的主角 ChatGPT 。
如果读者已经理解了前面关于深度学习神经网络的变迁和发展之路,再来看 ChatGPT 的技术升级,就是特别简单的事情了 。
ChatGPT 是基于 GPT-3.5 模型的魔改 。GPT-3.5 和 GPT-3 的区别呢,首先是和微软合作,在微软的 Azure AI 云服务器上完成了训练;另一个重要的区别是其训练数据集里除了文字,还加入了代码,因此 ChatGPT 现在已经可以写程序,甚至给现成的代码找 bug 了 。
为什么试用过 ChatGPT 的同学都感觉提升很明显? 一个重要的原因是 ChatGPT 引入了一个新的训练方法 RLHF(论文《Training language models to follow instructions with human feedback》发表于 22 年 3 月),简单的说,就是用人类反馈的方式加强训练 。
看这个简单的描述显然不能感受到技术的提升,不过我们只需要理解, 这其实就是在 GPT-3 的大数据预训练之下,再次加强了人类的反馈 。
有趣的是,前面基于 Transformer 的通用大数据无监督训练模式把自然语言的自动学习做到了某种极致,而这个 RLHF 又重新捡起了「手动档」人类反馈机制,貌似有一点返璞归真的感觉 。仿佛是武功高手练至化境之后,又重新拿起了最早的野球拳,一招使出了无与伦比的超越功力 。
ChatGPT 还有一个很重要的特点,就是针对输出有效性上做了非常好的调整 。使用过 ChatGPT 的同学一定能感觉到,ChatGPT 并非每一个问题都能回答详尽,但它绝对没有胡说八道,ChatGPT 的回答和真实世界的情况是相当一致的 。做到这点很不容易,也是 ChatGPT 和之前容易乱说一气的问答 AI 模型前辈最大的不同 。
另一个和确保回答有效性同样值得关注的改进是,ChatGPT 在道德约束上做得很出色 。如果我们去询问一些逾越了道德边界的问题,或者一些特别敏感的问题, ChatGPT 基本都能察觉和回避 。这让我们想起了 AI 绘画大模型最让人诟病的地方,那就是通过 AI 生成 18 禁图片,尽管这不是一个技术问题,但对于一个智能内容生成平台,我们显然要有方法管理好内容的质量,以及内容的道德边界 。在这一点上,ChatGPT 带了一个好头 。
ChatGPT 的试用版在 OpenAI 的 RLHF 论文发出半年之后刚刚推出,根据 OpenAI 研究人员自己的说法,内部经过了大量调优,而且即使当下,ChatGPT 还是有很多需要改进的地方 。但无论如何,ChatGPT 已经展示给我们所有人,自然语言生成式 AI 所能达到的全新高度 。
笔者特别憧憬 GPT4 的 ChatGPT 改版 。如果如传说那般,GPT4 已然突破了图灵测试,笔者对基于 4.0 版本的 ChatGPT 抱有无限的期待 。说不定,作者在上一篇文章里预言的,AI 大模型来写长篇玄幻小说的时代,马上就要来临了 。
07


推荐阅读