ChatGPT-4o,OpenAI的一小步,人类「AI助理」的一大步( 二 )


他认为,实现 AGI 的一个关键标志是,机器是否能具备了自主学习、自主迭代、自主解决问题等能力 。这个突破看起来很遥远,但当两个 ChatGPT 开始互相聊天的时候,这个鸿沟看起来似乎浅了一点点 。
02
GPT-4o 多模态大模型
【ChatGPT-4o,OpenAI的一小步,人类「AI助理」的一大步】的技术进步、以及安全性
这些惊艳的产品表现,根本上源自于 GPT-4o 多模态大模型的技术进步 。后者分为文本、语音、图像三部分,GPT-4o 在这三块都有提升,尤其是后两者 。
在文本方面,据 OpenAI 的技术报告,GPT-4o 在 MMLU(语言)、GPQA(知识)、MATH(数学)、HumanEval(编程)的评测指标上,都超出了 GPT-4T、GPT-4 (23 年 3 月最初发布版本) , 以及竞品 Claude 3 Opus、Gemini Pro 1.5、Llama3 400b、Gemini Ultra 1.0 。比如在 0-shot COT MMLU 上 , GPT-4o 创下了 88.7% 的新高分 。

ChatGPT-4o,OpenAI的一小步,人类「AI助理」的一大步

文章插图
GPT-4o 在文本上的成绩相当优异|图片来源:OpenAI最关键的 , 是音频、多语言和视觉上的进步 。
在音频方面,过去 ChatGPT 的音频缺陷是需要经过三个独立的模型,从而存在延迟、且无法承载丰富信息 。它先由第一个模型将音频转录为文本,再由 GPT-3.5 或 GPT-4 接收文本并输出文本,最后由第三个模型将该文本转换回音频——一方面,它使得音频的传输存在延迟 , GPT-3.5 的平均延迟为 2.8 秒,GPT-4 的平均延迟为 5.4 秒 。另一方面 , 模型会丢失大量信息 , 从而无法直接观察音调、多个说话者或背景噪音 , 也无法输出笑声、歌唱或表达情感 。
而 GPT-4o 的解决办法是 , 跨文本、视觉和音频端到端地训练了一个新模型 , 这意味着所有输入和输出都由同一神经网络处理 。OpenAI 称这是其突破深度学习界限的最新举措 。目前 , GPT-4o 可以在短至 232 毫秒、平均 320 毫秒的时间内响应音频输入,与人类的响应时间相似 。同时在音频 ASR 性能和翻译性能上,GPT-4o 都比 Whisper-v3(OpenAI 的语音识别模型)的性能更优 。
M3Exam 基准测试既能用于多语言评估,也可以用于视觉评估 。它由多项选择题组成,包括图形和图表 。在所有语言的基准测试中 , GPT-4o 都比 GPT-4 更强 。另外在视觉理解评估上,GPT-4o 在视觉感知基准上都实现了最先进的性能 。
ChatGPT-4o,OpenAI的一小步,人类「AI助理」的一大步

文章插图
GPT-4o 在视觉理解上同样能力不错 | 图片来源:OpenAI一位大模型训练者曾对极客公园表示,模型的技术领先性从来不是靠打榜评分 , 而是靠用户最真实的感受和体验 。从这个角度来说 , GPT-4o 的技术领先性将很容易见分晓 。
OpenAI 表示,GPT-4o 的文本和图像功能将于发布会当天在 ChatGPT 中推出 。免费用户就可以使用,不过 Plus 付费用户能享受高达 5 倍的消息容量 。在未来几周内 , OpenAI 会在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha 。
而开发人员现在就可以在 API 中访问 GPT-4o 的文本和视觉模型 。与 GPT-4 Turbo 相比 , GPT-4o 速度提高了 2 倍、价格降低了一半、速率限制提高了 5 倍 。在未来几周内,OpenAI 计划向一小部分值得信赖的合作伙伴推出 GPT-4o 的新音频和视频功能 。
一项强大的技术最令外界担忧的,就是它的安全可控性 。这也是 OpenAI 最核心的考虑之一 。
OpenAI 表示,GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术,在跨模式设计中内置了安全性 。其还创建了新的安全系统 , 为语音输出提供防护 。为了保证更好的安全性,OpenAI 表示在接下来的几周和几个月里,将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性 。
03
OpenAI 从没让外界失望,
再次引领科技圈的未来
作为这波 AI 浪潮的开启者、引领者,OpenAI 的每一次发布和更新,都关系着其庞大用户量的涨跌、公司竞争的进退、以及整个行业的关注和走向 。
在这次发布会之前,外界对 OpenAI 颇多谣传、也包括质疑 。一周前,外媒报道此次 OpenAI 要发布的是一款搜索引擎——在一年最重要的新闻发布时刻,这家公司没有推出 GPT-5,这引来外界对其创新力的颇多怀疑 。而如果无法拿出足够创新力的技术和产品,这家公司将难以重振用户的增长、满足整个市场对它的期待 。
自 2022 年底推出 ChatGPT 后,这家公司的用户量经历了大起大落 。据 Similarweb 估计,其全球访问量在 2023 年 5 月达到 18 亿次的峰值 。但进入 2023 年下半年后,其用户量则有所下降,至今仍未追平去年 5 月的全球访问量峰值记录 。


推荐阅读