机器之心的进化 / 理解 AI 驱动的软件 2.0 智能革命( 十 )


Waymo 和 Tesla 是自动驾驶领域的领跑者,Gartner 的副总裁 Mike Ramsey 这样评价:“如果目标是为大众提供自动驾驶辅助,那么 Tesla 已经很接近了;如果目标让车辆能够安全的自动行驶,那么 Waymo 正在取得胜利” 。Waymo 是 Level 4,可以在有限的地理条件下自动驾驶,不需要司机监督,但驱动它的技术还没有准备好让其在测试领域之外的大众市场上使用,而且造价昂贵 。从 2015 年开始,Tesla 花了六年多的时间赶上了 Waymo 现在的测试数据,同时用于自动驾驶的硬件越来越少,成本越来越低 。Tesla 的战略很有意思:“ 自动驾驶要适应任何道路,让车像人一样思考”,如果成功的话,它的可扩展性会大得多 。
让车看见和思考
Tesla 在 AI 上的押注是从 2017 年 Andrej Karpathy 的加入开始的,一个灵魂人物确实能改变一个行业 。Andrej 领导的 AI 团队完全重构了原有的自动驾驶技术,采用最新的神经网络模型 Transformer 训练了完全基于视觉的自动导航系统 FSD Beta 10,在 2021 年的 AI Day 上,Tesla AI 团队也毫无保留了分享了这些最新的研发成果,目的是为了招募更多人才加入 。
为了让车可以像人一样思考,Tesla 模拟了人类大脑处理视觉信息的方式,这是一套的由多种神经网络和逻辑算法组合而成的复杂流程 。
配图22:The Architecture of Tesla AutoPilot
FSD 的自动驾驶步骤大概如下:

  1. 视觉影像收集:通过车载的 6 个 1280x960 解析度的摄像头,采集 12bit 色深的视频,识别出环境中的各种物体和 Triggers(道路情况)
  2. 向量空间生成:人类看到的世界是大脑根据感知数据实时构建还原的三维世界,Tesla 用同样的机制把车周围世界的全部信息都投射到四维向量空间中,再做成动态的 BEV 鸟瞰图,让车在立体的空间中行使和预测,从而可以精准控制 。在 2021 年之前采用的是基于 Transformer 模型的 HydraNets,现在已经升级到最新的 Occupancy Networks,它可以更加精准的识别物体在 3D 空间中的占用情况
  3. 神经网络路线规划:采用蒙特卡洛算法(mcts)在神经网络的引导下计算,快速完成自己路径的搜索规划,而且算法还能给所有移动的目标都做计划,并且可以及时改变计划 。看别人的反应作出自己的决策,这不就是人类思维么?
Tesla FSD 能够如此快速的感知和决策,还得靠背后超级电脑 Tesla Dojo 的神经网络训练,这和 OpenAI 还有 Google 训练 LLMs 类似,只不过这些数据不来自互联网,而是跑在路上的每一辆 Tesla 汽车,通过 Shadow Mode 为 Dojo 提供真实的 3D 空间训练数据 。
大自然选择了 眼睛来作为最重要的信息获取器官,也许是冥冥之中的进化必然 。一个有理论认为 5.3 亿年前的寒武纪物种大爆发的部分原因是因为 能看见世界了,它让新的物种可以在快速变化的环境中移动和导航、规划行动了先和环境做出互动,生存概率大幅提高 。同理,让机器能看见,会不会一样让这个新物种大爆发呢?
5.2 不是机器人,是智能代理
并不是所有的机器人都具备感知现实世界的智能 。对于一个在仓库搬运货物的机器人来说,它们不需要大量的 Deep Learning,因为 环境是已知的和可预测的,大部分在特定环境中使用的自动驾驶汽车也是一样的道理 。就像让人惊叹的 Boston Dynamic 公司机器人的舞蹈,他们有世界上最好的机器人控制技术,但要做那些安排好的动作,用程序把规则写好就行 。很多看官都会觉得 Tesla 在今年九月发布的机器人 Tesla Optimus 那慢悠悠的动作和 Boston Dynamic 的没法比,但拥有一个优秀的机器大脑和可以量产的设计更重要 。
自动驾驶和真实世界互动的核心是安全,不要发生碰撞;但 AI 驱动的机器人的核心是和真实世界发生互动,理解语音,抓握避让物体,完成人类下达的指令 。驱动 Tesla 汽车的 FSD 技术同样会用来驱动 Tesla Optimus 机器人,他们有相同的心脏(FSD Computer)和相同的大脑(Tesla Dojo) 。但训练机器人比训练自动驾驶还要困难,毕竟没有几百万个已经投入使用的 Optimus 帮你从现实世界采集数据,这时 Metaverse 概念中的 虚拟世界 就能展露拳脚了 。
虚拟世界中的模拟真实
为机器人感知世界建立新的 基础模型 将需要跨越不同环境大量数据集,那些虚拟环境、机器人交互、人类的视频、以及自然语言都可以成为这些模型的有用数据源,学界对使用这些数据在虚拟环境中训练的 智能代理有个专门的分类 EAI(Embodied artificial intelligence) 。在这一点上,李飞飞再次走在了前列,她的团队发布了一个标准化的模拟数据集 BEHAVIOR,包含 100 个类人常见动作,例如捡玩具、擦桌子、清洁地板等等,EAI 们可以在任何虚拟世界中进行测试,希望这个项目能像 ImageNet 那样对人工智能的训练数据领域有杰出的学术贡献 。


推荐阅读