大模型打造离不开AI的三大基石:数据 , 算法和算力 。大模型多烧钱?一位AI从业者向《中国新闻周刊》举例 , 他接触的一个数据公司有中文数据量700亿~1000亿条 , 每天定期更新3亿条 , 据了解 , 这比ChatGPT在中文世界的数据量多 , 如果有研究者想要下载 , 先得支付30万的下载费 , “这只是大模型训练中一个很小的环节 , 你可以想象它是一个无比巨大的机器 , 电费都是天价” 。
算力离不开芯片 。2月12日 , 国盛证券估算 , 今年1月 , 平均每天约有1300万独立访客使用ChatGPT , 对应芯片需求为3万多片英伟达A100GPU , 初始投入成本约8亿美元 , 每日电费5万美元左右 。而GPT-3训练一次 , 成本约为140万美元 , 对一些更大的大模型 , 训练成本介于200万美元至1200万美元之间 。这一成本对全球科技大企业而言 , 尚在可接受范围内 , 但并不便宜 。
在数据上 , 2020年 , GPT-3使用的最大数据集在处理前容量达到了45TB 。鹏城实验室副研究员曾炜等人在2022年发布一篇论文中提到 , 目前已有3个100GB以上规模的中文语料数据集 , 分别是爬虫公司Common Crawl抽取到的CLUECorpus2020 , 模型规模为100 GB;阿里巴巴集团发布的M6中文多模态模型 , 规模为300GB;北京智源研究院面向合作者发布的300GB高质量中文语料 。文章写道 , “与目前同等规模参数量的英文预训练模型所使用的数据量相比 , 上面这些中文语料数据仍不能满足训练数据需求” 。
聂再清分析说 , 中文很多高质量信息在App里 , “有点数据孤岛的意思” , 公开的高质量互联网语料可能不如英文多 。另一个挑战是 , 语料筛选、清洗、预处理和标注需要相关技术人员深度参与 , 会有一个不断迭代和较为长期的过程 。
此外 , 中文机器语言学习在很多方面要比英文更复杂 , 中文和英文在句法结构、缩写规范方面也有差别 。聂再清提醒 , 打造对标ChatGPT的大模型并非一蹴而就 , 需要时间 。
大模型不只是有ChatGPT这一种产品 。当有足够大算力保证时 , 学界和产业界可以用大模型做更多尝试 。李笛介绍 , 此前 , 大模型已在AI绘画领域造成了很大变化 , 现在AI文本生成领域也有了新进展 , AI作曲、AI演唱领域都有人在尝试 , “现在的状态很像是‘炼丹’ , 大家拿到好玩的玩具 , 想看这一玩具还能吐出什么令人惊讶的东西 。我相信 , 不只是图像、文本领域 , 其他领域一定也会有新突破” 。
但李笛认为 , 最终还是要看它能否实现“端到端”的落地 。在国内 , 绝大部分大模型都还无法实现这一目标 。同样 , 很多AI绘画单幅质量已很好 , 但在可控性上却“漏洞百出” 。所以今天大模型的应用普遍还停留在试用阶段 , 距离真正大规模商用 , 还有很多事情要调整 。
“这是一个‘卡脖子’的问题 。”刘知远对《中国新闻周刊》说 。目前 , ChatGPT对国内的企业没有开放 , 相关产业就无法接入到它的体系中 。在刘知远看来 , OpenAI已经做了大模型和产品 , 更重要的是 , “我们能不能发明出自己创新的技术和产品” 。
聂再清认为 , 最关键的不是信息闭塞 , 而是国内愿不愿意投入到看上去“无用”的研究中 , “现在不少业内人士还是希望直接研发有效有用的东西 , 不会对一些短期看上去无用的事情上进行大量投入 , 尤其是像开发ChatGPT这样大的投入” 。
发于2023.2.20总第1080期《中国新闻周刊》杂志
杂志标题:ChatGPT:是AI进化革命还是又一场泡沫?
作者:杨智杰
【ChatGPT为何没能诞生在中国?】
推荐阅读
- ChatGPT 帮你摸鱼?“天选打工人套餐”来了
- 为何叫孔雀东南飞 孔雀东飞何处栖
- ai|人民网发文:《好好干,日子会越来越甜》,为何惹众怒?
- 沈月|小S羡慕贾静雯?网友为何调侃:许雅均读懂了S一家的说明书?
- 杨振宁李政道共获诺贝尔奖后为何反目成仇互不原谅 李政道与杨振宁决裂事件的详细经过
- 星落凝成糖|《星落凝成糖》与《香蜜沉沉烬如霜》是同位导演,为何质量差距大
- 曾毅结婚玲花为何要哭 曾毅李娜
- 文玩|对于文玩,为何是“盘”
- 戴姓为何称第一美姓 姓戴的名人
- 求职|为何找工作这么难?当前经济环境下,员工老板各有苦衷
