大模型上车,特斯拉带了个好头吗?

1989年,卡内基梅隆大学接到了美国军方的一个研究课题,内容是当时看起来不可思议的自动驾驶 。为此 , 研究人员给一辆翻新的军用急救车,装上了一个看起来像探照灯的硕大摄像头,还配备了一台冰箱大小的处理器和一部5000W的发电机 。
尽管设备简陋、数据粗糙 , 比如据媒体报道当时车顶的摄像头只能输入30×32像素网格 , 但借助开创性的神经网络 , 这辆名为ALVINN的自动驾驶汽车最高速度能达到88km/h 。
ALVINN被誉为自动驾驶领域一个里程碑项目 。其最深刻的影响,正是用神经网络替代人工代码,成为后来自动驾驶技术发展的一座灯塔 。
此后数十年,自动驾驶技术沿着ALVINN的方向飞速发展,直到ChatGPT问世 , 大模型走上舞台,成为改变自动驾驶最大的一个变量 。
在车端,大模型已经作用于自动驾驶的感知和预测环节,正在向决策层渗透;在云端,大模型为L3及以上自动驾驶落地铺平了道路;甚至,大模型还将加速城市NOA落地 。
而全球的下游企业中,特斯拉毫无疑问是跑在最前面的少数 。
今年8月特斯拉端到端AI自动驾驶系统FSD Beta V12版本的公开亮相,据称可以完全依靠车载摄像头和神经网络,识别道路和交通情况并做出相应的决策 。
这种端到端模型的感知决策一体化,让自动驾驶直接从一端输入图像数据,一端输出操作控制,更接近人类的真实驾驶 。
但车企们努力接近端到端模型时才发现,想要超越必须先跟随 。
让大模型上车 , 特斯拉绝对是最激进的一个 。
早在2015年,特斯拉就开始布局自动驾驶软硬件自研,2016-2019年陆续实现了算法和芯片自研 。随后在2020年,特斯拉自动驾驶又迎来大规模升级:
不仅用FSD Beta替换了Mobileye的Autopilot 3.0,还将算法由原来的2D+CNN升级为BEV+Transform 。
Transformer就是GPT中的T,是一种深度学习神经网络 , 优势是可实现全局理解的特征提?。?銮磕P臀榷ㄐ院头夯?芰?。
BEV全称是Bird’s Eye View(鸟瞰视角),是一种将三维环境信息投影到二维平面的方法,以俯视视角展示环境当中的物体和地形 。
与传统小模型相比 , BEV+Transformer对智能驾驶的感知和泛化能力进行了提升,有助于缓解智能驾驶的长尾问题:
【大模型上车,特斯拉带了个好头吗?】1)感知能力:BEV统一视角 , 将激光雷达、雷达和相机等多模态数据融合至同一平面上,可以提供全局视角并消除数据之间的遮挡和重叠问题,提高物体检测和跟踪的精度 ;
2)泛化能力:Transformer模型通过自注意力机制,可实现全局理解的特征提取 , 有利于寻找事物本身的内在关系,使智能驾驶学会总结归纳而不是机械式学习 。
2022年特斯拉又在算法中引入时序网络,并将BEV升级为占用网络(Occupanc.NETwork),有效解决了从三维到二维过程中的信息损失问题 。
从感知算法的推进来看,行业总体2022年及之前的的商业化应用主要为2D+CNN算法 。随着ChatGPT等AI大模型的兴起 , 算法已经升级至BEV+Transformer 。
时间上特斯拉有领先优势(2020年) , 国内小鹏、华为、理想等均是今年才切换至BEV+Transformer 。
但不论是特斯拉还是国内主机厂 , BEV+Transformer都仍只应用于感知端 。
虽然学术界以最终规划为目标,提出感知决策一体化的智能驾驶通用大模型UniAD+全栈Transformer模型,不过受限于算法复杂性+大算力要求,目标落地尚无准确时间表 。
2016年,因辅助驾驶致死事故和Mobileye分道扬镳的特斯拉,找到英伟达定制了算力为24TOPS的计算平台 Drive PX2,由此开启了车企疯狂追求算力的神奇序幕 。
继Drive PX2之后 , 英伟达在6年时间内发布了三代智能驾驶芯片,从Xavier、Orin再到Thor,算力从30TOPS一跃升到2000TOPS,足足增长了83倍 , 比摩尔定律还要快 。
上游如此“丧心病狂”的堆算力,归根结底还是因为下游有人买单 。
一方面,随着智能汽车上的传感器规格和数量提升,带来数据层面的暴涨 。
以特斯拉Model Y(配置|询价)和小鹏 G6(配置|询价) Max为例 , 后者因配置了更多传感器,所需算力达到了前者的3.5倍 。
当一辆自动驾驶车辆每天可以产生数TB,甚至数十TB数据 , 数据处理能力即为自动驾驶技术验证的关键点之一 。
另一方面,“大模型化”也让智能驾驶算法的芯片算力愈发吃紧 。


推荐阅读