42号车库|为什么特斯拉实现不了 L5 自动驾驶?( 二 )


现在我们来讨论我们工程师感兴趣的 , 「特斯拉的纯视觉深度学习解决方案能否在 2020 年甚至接下来的几年内实现 L5 全自动驾驶?」
我的答案是:不能 。
以下将从特斯拉的技术路线、L5 自动驾驶的社会接受度及商业模式方面分析「我为什么认为马斯克的 2020 L5 自动驾驶愿景实现不了」 。
02
特斯拉的技术路线
马斯克在以往讲话中提出的另一个重要的观点 , 他相信特斯拉汽车「仅通过改进软件即可实现 L5 自动驾驶」 。
目前的 L4 自动驾驶公司 , 如 Waymo 和 Uber 都使用了激光雷达模块来创建汽车周围环境的高精度三维地图 , 以此弥补纯视觉感知的不足 , 提供更多的安全冗余 。
而特斯拉目前主要依靠基于摄像机的纯视觉算法来识别交通场景 , 通过深度神经网络从安装在车辆周围的八个摄像头的视频源中检测道路、汽车、物体和人 。 虽然特斯拉还配备了前置雷达和超声波雷达用以辅助 , 但是效果有限 。
42号车库|为什么特斯拉实现不了 L5 自动驾驶?
本文插图

马斯克的逻辑是:人类大多数情况下仅仅依赖于自身的视觉来识别周围的物体 , 人眼能做到的 , 摄像头同样也能做到 。
这个逻辑并不完整 , 首先人类的眼睛背面有连接到大脑的 3D 映射硬件来检测物体并避免碰撞 , 至少 2020 年的摄像头并没有这一映射模组 。
其次 , 当前的深度神经网络充其量只是对人类视觉系统的粗略模仿 , 只是模拟了人类大脑皮层神经细胞的一小部分 。
深度学习的局限性在于 , 它需要大量的训练数据才能可靠地工作 , 当面对训练数据中未包含的新情况时 , 它们没有人类的创造性和灵活性 。
因此依靠现存的深度神经网络 , 我们无法实现「西部世界」中雷荷波的万物皆可预测 。
最后 , 人类的眼睛经过数百万年的进化 , 视觉皮层对特定的事物如物体形状、特定的颜色、纹理以及运动追踪非常敏感 。 我们的汽车、道路、人行道、路标、红绿灯等交通设施和建筑物都是依据人类的视觉喜好设计 。
我们根据人类视觉系统的总体偏好和敏感性 , 有意识或无意识地选择了这些物体的颜色、纹理和形状 。
人工智能往往在后天上去学习了解部分这些特性 , 而人类早已经在先天上具备这种优良的识别能力 。
也许有一天摄像头也能达到人眼一样的效果 , 但这一天肯定不是今天 , 也不是今年 。
关于深度学习的数据依赖性 , 马斯克在他的讲话中也提到了 , Tesla Autopilot 在中国之所以不能像在美国那样好用 , 是因为特斯拉视觉算法的大多数培训数据都来自美国 , 这其实和奥迪 A8 的 L3 自动驾驶功能在中国的应用非常受限的原因是一样的 。
由此引出了一个概念:深度学习的长尾问题 。
所谓深度学习的长尾问题(Long-tail problem)就是模型所面临的极端情况或者「Corner case」的数量是未知的 , 很有可能是无限的 。
人类驾驶员能够迅速适应新的环境和条件 , 例如新的城市或城镇 , 或者以前从未经历过的天气条件(积雪、大雾、泥泞小路等) 。
当我们处理新的情况时 , 我们会使用直观的物理学、常识以及对世界如何运转的知识来做出理性的决策 。
我们了解因果关系 , 并可以确定哪些事件导致了其他事件 。 我们还了解环境中其他理性行为者的目标和意图 , 并可靠地预测其下一步行动 。 但是目前 , 深度学习算法还没有这种功能 , 因此需要针对每种可能遇到的情况进行预训练 。
即使特斯拉的深度学习算法适应的环境中如高速公路 , 它们也不擅长处理训练场景之外的情况 , 比如前两个月在台湾发生的特斯拉撞入前方倾翻车辆的事件 。 特斯拉可以不断更新其深度学习模型 , 以应对所谓的「Corner case」 , 但是实际上这种极端情况是未知的 。


推荐阅读