MIT学者独家撰文:ChatGPT的瓶颈与解药( 二 )


只要模型的表示能力足够强(参数量足够)、被压缩的训练数据量足够大 , 语言模型就能在压缩信息的过程中抽象出一定的思维能力,包括推理、计算、预测等等 。
【MIT学者独家撰文:ChatGPT的瓶颈与解药】最先进的语言模型(例如 GPT-4)展现出的回答问题、跟随指令、编写代码的能力显然早已超越了任何人类的 “梦呓” 。但如果说 GPT-4 和基于 GPT-4 的种种 Agent 足够可靠,似乎为时尚早 。
GPT-4 是极端经验主义 AI 的代表:把世界上所有的高质量文本、程序、数学、对话数据压缩到算力允许的最大模型里,再抽象出这一技术路线蕴含的最强思维能力 。它没有可靠推理引擎的支撑 , 完全依赖简单粗暴、类似“死记硬背”的大量训练 。无论多少计算和数据资源,都无法掩盖和弥补 GPT-4 本质的推理缺陷 。就如同酒驾的司机,无论酒量多好、多么侥幸,都无法避免酒精对人反应和判断能力的本质危害 。
正如不同的任务对人的思维严谨程度有不同要求,当前的语言模型更适用于能容忍甚至欢迎一些噪声的应用场景,但在需要执行准确、可控的复杂推理任务时,其可靠性有根本的缺陷 。GPT-4 甚至会在回答一些并不复杂的问题时生成自相矛盾的文本,如下图所示:

MIT学者独家撰文:ChatGPT的瓶颈与解药

文章插图

MIT学者独家撰文:ChatGPT的瓶颈与解药

文章插图
实际上 , 吴丹(U Thant)是第一位来自于亚洲的联合国秘书长,潘基文(Ban Ki-moon)是第二位来自于亚洲的联合国秘书长 , 上图中 GPT-4 的回答并不准确 。
能力如此强大的 GPT-4,却依然会在简单的问答中生成自相矛盾的语言,这也佐证了现阶段语言模型推理的不可靠性 。
02 文本补全模型的瓶颈就在文本
人类运用语言的能力可以抽象成知识、推理、计算三大模块 , 并且语言绝对不等于文本 。
许多语言模型(文本补全模型)的问题难以解决,绝非模型不够强大,而是因为自然语言文本是思维结果的表达,并不是思维过程的载体 。
比如,我们想要学好物理,“事半功倍”的办法就需要从物理定律、求解问题、设计实验的思路出发;反之“事倍功半”的办法则是死记硬背一百本物理习题却不理解牛顿定律 。采用这种方法的学习者花费更多的时间,但还是无法融会贯通地解决没见过的问题 。
这个缺陷并不是解题模型——人类大脑的问题 , 而是训练数据的缺陷——问题的答案只是物理定律的表象,而解题思维代表着对物理定律的直接应用 。
不可否认,“死记硬背”是实现“答对考题”的技术路线之一 。与之相似,使用大型神经网络在大规模数据集上学习文本补全能力 , 也是当前 AI“获得思维”的技术路线 。
虽然巨量的计算资源与数据的投入让这种技术路线取得了成功 , 但诸多的研究和应用已经证明,这种技术路线的可靠性瓶颈会带来诸多挑战:臆想、推理能力有限、隐私泄露、合规问题等等 。
大语言模型的能力是一把双刃剑:可以处理不存在于训练数据中的新问题 , 但也会在其不知情的情况下,输出错误的推理结果 。
作为通过压缩文本提炼思维的黑盒模型,其知识、思维、推理能力都储存在神经网络的权重中 。AI 的优势和不足都体现在以下几个方面:
  • 抽取真实或失实的知识和信息;
  • 规划非结构化的推理流程;
  • 由模型执行有误差的计算 。
由于以上三个模块都有可能出错,大模型的行为难以验证、解释、控制、改进 。
针对“在美国,哪种新冠病毒造成了最高的 ICU 占用量”这个问题,GPT-4模型的回答是“德尔塔变种导致的 ICU 占用量最高” 。
那真实的情况是什么?
在 11 月 6 日的 OpenAI 开发日前,没有搜索引擎增强的 GPT-4 模型会给出定性的回答和解释:
MIT学者独家撰文:ChatGPT的瓶颈与解药

文章插图
开发日后的 GPT-4 系统默认调用必应搜索引擎,会基于搜索结果给出数据、作出一定解释和参考资料引用:
MIT学者独家撰文:ChatGPT的瓶颈与解药

文章插图
中文翻译:
MIT学者独家撰文:ChatGPT的瓶颈与解药

文章插图
获得搜索增强的 ChatGPT 生成了更有说服力、文本更专业的回复 。尤其是在其中三处引用了参考资料网址,更加提高了用户阅读答案后的满意度(和被误导的可能性) 。


推荐阅读