业界首个!大规模多相机通用物品场景数据集MessyTable( 二 )
本文插图
表1:MessyTable与类似多相机数据集的规模对比
4 MessyTable有哪些设计上的考量?
答:
我们主要有三个设计:场景难度等级、多相机的设置以及通用物品的选择 。
场景难度等级:我们将MessyTable的场景设计为三个难度等级 。 越困难的场景中有更多的遮挡、相似相同的物体以及更多物体处于共享视野之外 。 详见图3 。
本文插图
图3:a)三个难度等级的场景示例;b)更难场景有更多的实例;c)更难场景有更少的实例出现在共享视野;d)更难场景有更多相同物体的实例
多相机的设置:为了研究相机相对角度对关联表现的影响 , 我们设置了9个相机以及567个不同的相机部署方案 , 产生了2万多对相对相机位置 。 详见图4 。
本文插图
图4:a)相机在空间中的均匀分布(投影至1号相机);b)采集中的相机布置;c)相对相机角度的分布有极大的多样性
通用物品的选择:我们挑选了120种餐桌上常见的物体:60种超市商品、23种果蔬、13种面点以及24种餐具 , 包括多种大小、颜色、纹理和材料 。 在图5中我们统计了这些物体的出现频率 , 在图6中我们罗列了完整的物体清单 。
本文插图
图5:120种物体的出现频率
本文插图
图6:全物体清单
5 各种算法在MessyTable上的表现如何?
答:
我们测试了多种算法基线(见表2) 。 单应性投影(Homographic projection)并不意外地表现很差 , 因为其关键的物体都在同一平面的假设在复杂场景中不成立;基于SIFT关键点提取的传统方法效果也不好 , 因为无纹理的物体上关键点极少;基于深度学习的Patch-Matching的方法如MatchNet、 Deep-Compare及DeepDesc效果一般 , 而基于Triplet结构的基线表现有较大幅度的提升 , 但也受限于无法区分相似相同的物体;
本文插图
表2:各算法基线在MessyTable上的表现显示结合外观信息、周围信息、几何信息的算法取得最好的效果
我们发现除了外观信息 , 周围信息非常重要 。 因此我们提出将检测框之外的信息包括进来 。 我们将这个操作称之为Zoom-out 。 但是我们发现直接在Triplet网络上加上Zoom-out效果不好 , 于是我们观察人类的行为:一个人只有当物体本身的特征信息不足时 , 才会从周边寻求线索 。 因此 , 我们提出ASNet(图7) , 它有外观特征分支和周围特征分支 , 并使用一个lambda系数来平衡两个分支(公式1) 。 当物体的外观信息相似时 , Lambda的设计(公式2)使网络分配更大的权重给周围信息分支 。
本文插图
图7:Appearance-Surrounding Network (ASNet)
本文插图
ASNet显著地提升了关联的表现 。 图8的特征图的可视化显示了ASNet学会了从实例周围获取线索 , 而直接使用Zoom-out仍然专注于实例本身 。
本文插图
图8:直接使用Zoom-out仍然专注于实例本身(只在中心存在一个高响应区域) , 但ASNet学会了从实例周围获取线索(在实例周围仍有多个高响应区域)
推荐阅读
- 中国青年报|专升本再迎大规模扩招 高职生热衷升本该怎么看?
- 人类历史上的大规模疫情|人类历史上的大规模疫情人类历史上的大规模疫情?新冠肺炎疫
- 人类历史上的大规模疫情|人类历史上的大规模疫情人类历史上的大规模疫情!明尼苏达州这
- 特朗普|又有什么阴谋?特朗普突然改口对中方“满意”,美媒大规模夸奖中方!
- 财经Share|以色列趁乱来袭,伊朗果断回击,俄叙联军展开大规模军事行动
- 快科技|真全面屏最佳方案 小米屏下相机明年量产:今年没有旗舰机了
- 东方网|日系相机品牌全画幅专微相机线下体验活动在沪举行
- 运动相机|GoPro Hero 9 Black运动相机曝光
- 相机发烧|松下全画幅微单S5和S1到底哪里不一样?
- 加拿大必读|拘捕数名学生后,白俄罗斯即将爆发大规模抗议,矛盾不断升级
