AI大模型要革AI的命

来源:经济观察报
作者:沈怡然

AI大模型要革AI的命

文章插图
【AI大模型要革AI的命】图片来源:由无界 AI生成
今年4月,一家人工智能头部企业中的几位研究员不约而同地关注到了一项新技术:SAM(Segment Anything Model) 。研究员们很快将这一技术上报部门负责人,这家企业以机器视觉技术起家,研究员关注到的技术也与此有关 。“随着SAM的出现,越来越多AI的人意识到,大模型对于他们而言是一次冲击”,其中一名研究员说 。
一个月后,这家公司开始调配资源开发视觉大模型 。
此后三个月,头部的机器视觉AI企业关注到这一技术的潜力,截至目前,商汤科技、云从科技等人工智能公司以及传统安防企业,纷纷开始投入这场新的技术竞争 。
SAM,是一种面向通用场景的图像分割模型,在今年4月由Meta推出,就像和ChatGPT对话一样,人类可以通过一些语言指令,让SAM自主分辨和思考图片中的内容,SAM被认为是出现在视觉领域的ChatGPT 。
全世界的发烧友用它画画、抠图,玩得不亦乐乎,中国研究员们却识别出SAM的威力:若用在自动驾驶、安防监控,以检测人、车和道路,它就是一个从根本上打破传统机器视觉玩法的大模型 。
分割和识别图像是机器视觉的核心任务 。过去,每创建一个分割图像的任务,都需要训练一次算法、标注一批数据,以叠加小模型的方式让机器“看见”图像中的各类物体 。而SAM表现出了一些新的特征:无需为每一个特定任务创建小模型,机器可以自主对任何图像中的任何物体进行分割,甚至是未知的、影像模糊的场景,且操作极为简单 。
这意味着SAM具有更加通用的特征,且有可能利用这种通用特征,大幅度降低机器视觉识别的成本,从而改变基于原有技术的商业模式和竞争格局 。
自2016年开始,拥有巨大市场的中国涌现了上百家人工智能公司,在市场竞争和资本助推下,逐步形成了数家AI独角兽,商汤科技、云从科技、旷视科技、依图科技,这些公司将AI带入安防、政务、工业领域,并利用算法上的精进、规模上的优势建起了护城河 。
但如今,随着技术的更迭,这场赛事有可能重新展开 。
中国移动集团首席科学家、中国人工智能产业发展联盟副理事长冯俊兰对采访人员表示,AI大模型将带来一种全新的人工智能范式,过去所谓的AI领域的护城河在大模型冲击下基本不存在了 。SAM的出现,证明视觉大模型的可实现性,颠覆了一直以来机器视觉的研究框架、交互和生产服务方式 。
IEEE高级会员、天津理工大学教授、AR/VR技术专家罗训对采访人员表示,之前头部企业的AI能力优势,会因为通用大模型的兴起而被一定程度削弱 。但是这些企业是否本身会变弱,取决于它们的转型 。
技术路线
作为AI的一个重要分支,机器视觉的目标是让计算机模仿人类视觉系统,实现图像和视频的理解和处理 。
2000年后,被称人工智能奠基人的Geoffrey Hinton、Yann LeCun和Yoshua Bengio突破了深度学习技术,让机器可以模糊地模拟人脑,从海量图像中自动学习并提取特征 。
2012年是一个重要时间节点,斯坦福大学教授李飞飞创建的Imag.NET项目,将深度学习推向主流:研究者可通过对大量图片的人工标注教会计算机识别各种各样的物体,这大幅提升了机器视觉的准确率,降低了成本,使其有了商业化的可能 。
2023年4月,新的变化到来,Meta公司上线了一款名叫SAM的图像分割模型 。作为一款大模型,SAM不仅为机器安上感知外界的眼睛,还赋予机器一个真正的大脑,它学会对图像进行观察、感知、思考、逻辑推理、得出结果,且操作极其简单,类似于ChatGPT用人类语言对话的方式给机器命令 。
简言之,它更容易地实现了机器视觉的目标,过程中无需大量图像标注、堆叠算法,消耗的算力也更少 。英伟达人工智能科学家Jim Fan表示,SAM大模型是机器视觉的GPT-3时刻,它已经了解了物体的一般概念,即使对于未知对象、不熟悉的场景(例如水下图像)、在模棱两可的情况下也能进行图像分割 。
Meta发布SAM后,也将模型及其背后的训练数据集一并开源,并从AR、VR、内容创建等领域,介绍了SAM的应用场景 。
身在中国的企业和研究人士很快判断出SAM可能具备的商业价值若将其用在自动驾驶、安防监控,以检测人、车和道路,它能从根本上打破传统机器视觉的玩法 。


推荐阅读