ChatGPT为何没能诞生在中国？( 五 ) _ChatGPT

大模型打造离不开AI的三大基石：数据，算法和算力。大模型多烧钱？一位AI从业者向《中国新闻周刊》举例，他接触的一个数据公司有中文数据量700亿~1000亿条，每天定期更新3亿条，据了解，这比ChatGPT在中文世界的数据量多，如果有研究者想要下载，先得支付30万的下载费， “这只是大模型训练中一个很小的环节，你可以想象它是一个无比巨大的机器，电费都是天价” 。
算力离不开芯片。2月12日，国盛证券估算，今年1月，平均每天约有1300万独立访客使用ChatGPT ，对应芯片需求为3万多片英伟达A100GPU ，初始投入成本约8亿美元，每日电费5万美元左右。而GPT-3训练一次，成本约为140万美元，对一些更大的大模型，训练成本介于200万美元至1200万美元之间。这一成本对全球科技大企业而言，尚在可接受范围内，但并不便宜。
在数据上， 2020年， GPT-3使用的最大数据集在处理前容量达到了45TB 。鹏城实验室副研究员曾炜等人在2022年发布一篇论文中提到，目前已有3个100GB以上规模的中文语料数据集，分别是爬虫公司Common Crawl抽取到的CLUECorpus2020 ，模型规模为100 GB；阿里巴巴集团发布的M6中文多模态模型，规模为300GB；北京智源研究院面向合作者发布的300GB高质量中文语料。文章写道， “与目前同等规模参数量的英文预训练模型所使用的数据量相比，上面这些中文语料数据仍不能满足训练数据需求” 。
聂再清分析说，中文很多高质量信息在App里， “有点数据孤岛的意思” ，公开的高质量互联网语料可能不如英文多。另一个挑战是，语料筛选、清洗、预处理和标注需要相关技术人员深度参与，会有一个不断迭代和较为长期的过程。
此外，中文机器语言学习在很多方面要比英文更复杂，中文和英文在句法结构、缩写规范方面也有差别。聂再清提醒，打造对标ChatGPT的大模型并非一蹴而就，需要时间。
大模型不只是有ChatGPT这一种产品。当有足够大算力保证时，学界和产业界可以用大模型做更多尝试。李笛介绍，此前，大模型已在AI绘画领域造成了很大变化，现在AI文本生成领域也有了新进展， AI作曲、AI演唱领域都有人在尝试， “现在的状态很像是‘炼丹’ ，大家拿到好玩的玩具，想看这一玩具还能吐出什么令人惊讶的东西。我相信，不只是图像、文本领域，其他领域一定也会有新突破” 。
但李笛认为，最终还是要看它能否实现“端到端”的落地。在国内，绝大部分大模型都还无法实现这一目标。同样，很多AI绘画单幅质量已很好，但在可控性上却“漏洞百出” 。所以今天大模型的应用普遍还停留在试用阶段，距离真正大规模商用，还有很多事情要调整。
“这是一个‘卡脖子’的问题。”刘知远对《中国新闻周刊》说。目前， ChatGPT对国内的企业没有开放，相关产业就无法接入到它的体系中。在刘知远看来， OpenAI已经做了大模型和产品，更重要的是， “我们能不能发明出自己创新的技术和产品” 。
聂再清认为，最关键的不是信息闭塞，而是国内愿不愿意投入到看上去“无用”的研究中， “现在不少业内人士还是希望直接研发有效有用的东西，不会对一些短期看上去无用的事情上进行大量投入，尤其是像开发ChatGPT这样大的投入” 。
发于2023.2.20总第1080期《中国新闻周刊》杂志
杂志标题：ChatGPT：是AI进化革命还是又一场泡沫？
作者：杨智杰

【ChatGPT为何没能诞生在中国？】

ChatGPT为何没能诞生在中国？( 五 )

推荐阅读

穿搭|三伏天太热，紧身裤再美也别穿，瞧这半身裙+雪纺衫，又美又仙

婺源,大力发展以茶产业为主导的生态农业

「黑客攻击手段」CSRF攻击，你越好奇，离你的账户越近

生计问题@合村并镇后，农村土地要不要重新分配？养老和生计问题

小北文案馆|表面幼稚单纯，实则城府极深，心理学:有这些特点的人

四月适合在国内哪些地旅游呢求推荐我在新疆

烹饪|这5种食物虽然看着不油腻，但是最容易长肉了，热量比较高

「洪泰智造工场」智造头条｜英特尔做大自动驾驶业务：斥10亿美元收购全球驾驶导航公司Moovit；金山云据悉最快于周一启动美国IPO

斯科拉里■遗憾！恒大功勋拒绝重返国家队，他本是里皮最佳接班人

东方网|北横通道再进一步！杨浦段今天全面进入主体围护结构施工阶段

罗克|世锦赛冠军剑指东京奥运会金牌，塞尔维亚女排黄金一代吹响集结号

真女神转生3：高清复刻版|东京已死我却新生《真女神转生3HD》公布游戏画面

糊涂的小宇|秋季赛还未打响，QG又陷入“演员”事件？

大晴天旅行网靠谱吗

微软|世界最薄5G双屏手机！微软发布折叠屏Surface Duo 2

和讯名家老干妈腾讯纠纷真相大白支付宝：希望天下无假章

新华国际头条|美国对留学生签证“一刀切”并没变！韩国学生：荒唐到无话可说

中年TikTok将整改！美国白宫发话，将作为美国公司运营

航空公司|终于！海航集团破产重整计划法院批准

饱满|林则徐小楷《佛说无量寿经》：骨力劲健，姿态饱满