AI人工智能|对象检测技术如此混乱,如何更清晰地厘清各类目标检测复杂概念
文章图片
文章图片
目标检测技术的复杂程度超出我们的想象 。始终需要将数据转换为类似COCO的JSON或其他不需要的格式 。它从来没有即插即用的体验 。此外 , 没有像U-Net或ResNet那样的图完全解释Faster R-CNN或YOLO , 细节太多了 。
尽管这些模型非常混乱 , 但对它们缺乏简单性的解释却很简单 。它适合一个句子:神经网络具有固定大小的输出
在物体检测中 , 无法先验地知道一个场景中有多少个对象 。可能只有1个 , 2个 , 12个或没有 。以下图像均具有相同的分辨率 , 但具有不同数量的对象 。
文章图片
文章图片
文章图片
文章图片
一百万美元的问题是:如何从固定规模的网络中构建可变规模的产出?另外 , 我们应该如何训练各种损失(分类损失、边界框损失)?我们如何惩罚错误的预测?
实施可变大小的预测
为了创建大小不同的输出 , 文献中有两种方法可供使用:"一种尺寸适合所有人"方法 , 如此广泛以至于足以满足所有应用程序的输出 , 以及"超前"想法 , 我们在以下地区进行搜索:感兴趣区域 , 然后我们将其分类 。
【AI人工智能|对象检测技术如此混乱,如何更清晰地厘清各类目标检测复杂概念】我只是编造了这些用语 。实际上 , 它们被称为"一阶段"和"两阶段"方法 , 这有点不言自明 。一阶段方法
Overfeat , YOLO , SSD等如果我们不能有可变大小的输出 , 我们将返回一个太大的输出以至于它总是大于我们需要的输出 , 那么我们可以修剪多余的输出
整个想法是走贪婪的路线 。原始的YOLO检测器最多可以检测448x448图像的98个边界框 。听起来很荒谬 , 确实如此 。你自己看:
文章图片
文章图片
有太多冗余的检出
真是一团糟!但是 , 您可以看到每个框都有一个百分比 。该百分比表示算法对分类的"信心" 。如果我们将此阈值限制为某个值(例如50%) , 则会得到以下结果:
文章图片
文章图片
设定为50%置信度的阈值效果很好
好多了!这几乎可以概括为一个阶段的方法:生成大量(但固定)的检测结果并消除混乱 , 通常将阈值和非最大抑制(NMS)混合在一起 。
这种方法因其速度快而受到高度重视 。单个网络可以一次性处理整个图像并输出检测结果 。时至今日 , 每当速度成为最重要的问题时 , 单级检测器就受到青睐 。
缺点是存储成本高、检测精度低 。每个边界框消耗的内存与类的数量成正比 , 并且边界框的数量与图像分辨率成平方增长 。当类别很多且输入分辨率高时 , 这种成本可能会非常昂贵 。最重要的是 , 网络必须共同定位和分类对象 , 这会损害两个任务的性能 。两阶段探测器
RCNN , Fast-RCNN , Faster-RCNN , RetinaNet等如果我们无法获得可变大小的输出 , 那么让我们搜索感兴趣的区域并自己处理每个区域
换句话说 , 这种方法将边界框与检测结果分离 。在第一阶段 , 该算法找出感兴趣区域 。然后 , 我们使用专用网络对它们进行分类 。第一阶段如下所示:
推荐阅读
- 新科技嗅|人工智能可以应用在哪些方面
- 技术编程|人工智能在大视频运维中如何实现CDN硬盘故障预测?
- 新加坡|新加坡大学生人工智能创新大赛开幕式举行 星环科技提供建模平台
- AI人工智能|“眼健康黑科技” AI智能眼科检测仪来了!展锐虎贲T710开发板等你来盘!
- AI人工智能|非接触式测谎分析系统应用
- AI人工智能|错题打印机喵喵机P1彩色版,学习的多种打开方式
- AI人工智能,智能电视|康佳KKTV智能语音电视,找回自己的专属乐趣
- AI人工智能|人工智能技术助力民族语言保护大有可为
- AI人工智能|康佳KKTV智能语音电视,找回自己的专属乐趣
- 人民日报中央厨房|人工智能的职业替代或是多虑了
