刘知远介绍 , 预训练模型为自然语言处理带来了两个变化:一是可以充分利用网上海量的未标注数据 , 模型的规模和能力得到显著提高 , 因而 , 从规模角度 , 预训练模型被称为大模型;另一个变化是 , 大模型具有非常强的通用能力 , 只需经过少量参数微调 , 就可以用于机器翻译、人机对话等不同任务 。“大模型思想 , 某种意义上有点像‘大力出奇迹’ , 把大量数据压到一个很大的黑盒子中再提出来 。”李笛对《中国新闻周刊》说 。
“但人工标注还是一个重要的数据来源 , 此前大量的标注没必要了 , 但在特定任务上还需要标注一些 , 比如希望这个模型输出的内容更符合人的需求 。”刘知远说 。近期 , 《时代》周刊的调查 , 呈现出ChatGPT智能背后的灰暗角落 。《时代》周刊称 , 2021年11月 , 为训练 ChatGPT , OpenAI 使用了每小时收入1 ~2美元的肯尼亚外包劳工 , 对性虐待、仇恨言论和暴力等文本进行标注 , 保证聊天机器人过滤有害信息 , 输出适合日常对话的内容 , 同时 , 这对标注员的精神和心理产生极大伤害 。
学术界对大模型态度一直存在分歧 。北京智源人工智能研究院副院长刘江介绍 , GPT-3论文发布时 , 无论国内外 , 不少自然语言处理领域学者认为 , 大模型只是靠持续烧钱、粗暴扩大数据规模提升能力 , 并非真正创新 。刘知远对《中国新闻周刊》说 , 还有一个更现实的问题 , 大模型需要极大数据和算力支持 , 如果一些研究者的实验室没有算力支持 , 他们可能会选择过去熟悉的方向 。
OpenAI是全球所有科技公司中 , 大模型的坚定支持者 。2019年 , OpenAI推出参数为15亿的GPT-2 , 2020年推出GPT-3 , 将参数提升到了1750亿 , 成为当时全球最大的预训练模型 , 引发业内轰动 。“绝大部分人根本没想过 , 人类可以把一个模型训练到这么大的规模 , 这对自然语言交互的流畅性有非常强的提升 。”刘知远说 。
参数增多 , 使语言模型学习进阶到更复杂模式 。早在2020年 , GPT-3可以做到其他模型无法做到的事情 , 比如作诗、写复杂的文章和代码等 , 通用性极强 。刘知远形容 , GPT-3像是一个伶牙俐齿的人 , 有不错的表达能力 , 但不具备很强理解能力 。
2022年 , GPT-3进一步升级为GPT-3.5 , 这是ChatGPT的底层基础 , OpenAI进行微调 , 提升交互能力 , 让它“听得懂人类的复杂指令” 。“这些都经过了专门训练 , 像父母对小孩的调教 。”刘江形容 , GPT-3像是两三岁的天才儿童 , 读完世界上所有的书 , 但不知轻重 , 也没有价值观 , 需要父母精心教育和启发 , 让它在聊天方面发挥潜力 。
清华大学智能产业研究院首席研究员聂再清向《中国新闻周刊》介绍 , ChatGPT聊天能力的显著提升 , 是引入了一个新的数据训练方法 , 人类反馈强化学习(RLHF) 。OpenAI引入人类评判员 , 创建一个奖励模型——评判员不断地跟ChatGPT对话 , 并对它生成的答案按照质量好坏评分 , 模型收到反馈后进行优化 。山姆·奥特曼也承认 , “让模型以特定方式对人们有所用途 , 并找出正确的交互范式 , 却得到了惊人的效果 。”
在自然语言处理领域 , 流传最广的一句话来自于比尔·盖茨:“自然语言处理是人工智能皇冠上的明珠 , 如果我们能够推进自然语言处理 , 就可以再造一个微软 。”
刘知远认为 , ChatGPT推出后最大的价值在于 , 能用RLHF等技术 , 把大模型的能力展现出来 , 让公众意识到 , 人工智能与人类自然语言的交互达到非常高的水平 , 机器已经可以“能言善辩”了 。
但大模型为何有时生成错误答案?在李笛看来 , 这是由其技术结构决定的 。聂再清进一步向《中国新闻周刊》解释 , 这是因为ChatGPT本质上还是一个基于概率的语言模型 , 本身不涉及知识的对错 , 未来仍需用更多的专业知识训练 。
推荐阅读
- ChatGPT 帮你摸鱼?“天选打工人套餐”来了
- 为何叫孔雀东南飞 孔雀东飞何处栖
- ai|人民网发文:《好好干,日子会越来越甜》,为何惹众怒?
- 沈月|小S羡慕贾静雯?网友为何调侃:许雅均读懂了S一家的说明书?
- 杨振宁李政道共获诺贝尔奖后为何反目成仇互不原谅 李政道与杨振宁决裂事件的详细经过
- 星落凝成糖|《星落凝成糖》与《香蜜沉沉烬如霜》是同位导演,为何质量差距大
- 曾毅结婚玲花为何要哭 曾毅李娜
- 文玩|对于文玩,为何是“盘”
- 戴姓为何称第一美姓 姓戴的名人
- 求职|为何找工作这么难?当前经济环境下,员工老板各有苦衷
