『汽车公社』自动驾驶数据集被迫开放“营业”

“现在自动驾驶很火 , 火到什么程度?简单来说就是烧钱 。 ”
根据TheInformation发布最新研究称 , 投入自动驾驶战场的各家公司已经累计花掉了约160亿美元 。 需要注意的是 , 这160亿美元还没算上为了自动驾驶布局而发生的并购 。 举例来说 , 英特尔买下Mobileye花掉的153亿美元就不算在其中 。
众所周知 , 自动驾驶技术相当复杂 , 想要实现商用 , 花费的时间和成本对于任何一家车企或者科技公司来说都是巨大的 , 这些投资想要得到回报则需要更长的时间 。 而且自动驾驶所谓的商业化 , 还在探索当中 。 无论是推出RoboTaxi服务的WaymoOne , 或者是Nuro与Kroger合作的生鲜配送 , 又或者是安波福和Lyft推出的乘车服务等等 。
【『汽车公社』自动驾驶数据集被迫开放“营业”】
『汽车公社』自动驾驶数据集被迫开放“营业”
文章图片
那么 , 为了打破各家企业各自为战的局面 , 一些企业彼此开始尝试开放有价值的自动驾驶数据集 , 以加快自动驾驶技术的提升 , 从而推动自动驾驶行业的发展 。 去年 , 谷歌母公司Alphabet旗下自动驾驶公司Waymo公开了一部分开放数据集WaymoOpenDataset;近期福特也悄悄发布了其自动驾驶汽车数据集 。
这两家自动驾驶公司 , 是目前公认的在全球自动驾驶研究排名前列的企业 。 对于自动驾驶行业其他从业者而言 , 有了公开的数据集 , 他们能在一定程度上免去重复的资源投入 。 研发人员可以利用这些数据集来帮助开发自动驾驶汽车的感知算法 , 有助于推动其研发进程 。 实际上 , 这也是一场自动驾驶行业领导者地位的争夺 。
什么样的数据有价值?
自动驾驶汽车每天可以收集4TB或更多的原始传感器数据 , 直到现在 , 自动驾驶公司收集的数据还是公司的高度机密 。 但是近几年 , 自动驾驶领域的各路参与者 , 在开源数据集共享这件事上颇为“大方” 。
在福特的自动驾驶数据集发布之前 , Lyft此前也开源了自己的数据集用于自动驾驶汽车开发 。 其他开放此类的数据还包括nuScenes、MapillaryVistas的街道图像集、加拿大不利驾驶条件(CADC)、KITTI用于自动驾驶的研究;以及戴姆勒、马克斯·普朗克(MaxPlanck)信息学研究所和达姆施塔特工业大学(TUDarmstadt)视觉推断小组开发和维护的Cityscapes数据集 。
『汽车公社』自动驾驶数据集被迫开放“营业”
文章图片
不过问题在于 , 过去相关研究人员创建和发布的数据集相对较小 , 通常仅限于摄像头数据 。 虽然 , 安波福发布的NuScenes数据集除图像外还包括激光雷达的雷达数据 , Waymo和Argo发布的版本会更进一步 。 Waymo声称拥有3,000个场景 , 是NuScenes提供的场景的三倍 , 并且摄像头和激光雷达信息之间的同步更好 。
虽然由自动驾驶测试生成的所有数据对于车辆感知其周围环境 , 并在整个过程中都是有用的 , 但实际上只有其中的特定部分对开发和改进系统有用 。 比如在典型城市街道上一天的测试中 , 车辆中的工程师和技术人员会选择性的记录发生细微变化或具有挑战性的场景 。 也就是说自动驾驶数据集需要更加多样和精细化 , 对从业人员来说才有利用价值 。
福特此次公开的自动驾驶数据集 , 是工程师驾驶配备了四个四核英特尔i7处理器和16GBRAM的汽车 , 往返底特律大都会机场、密歇根大学迪尔伯恩分校、高速公路、市中心和郊区等地区共行驶了约66公里 。 其数据主要由4个激光雷达传感器、6个130万像素摄像头、1个500万像素摄像头和1个惯性测量单元 , 通过路况的细微变化来捕获多样化的数据 。
『汽车公社』自动驾驶数据集被迫开放“营业”
文章图片
一般而言 , 在测试结束时 , 所有数据都将从车辆中提取到数据中心 , 并对有益的数据进行分析和标记 。 原始数据本身对于处理器系统核心的学习系统没有多大价值 , 数据中感兴趣的对象包括行人、骑自行车的人、动物、交通信号灯等变量 。 在将传感器数据用于训练或测试AI系统之前 , 所有这些目标都需要进行手工标记和注释 , 以便系统可以理解其“所见” 。


推荐阅读