『』谷歌用MediaPipe实现手机高效实时3D对象检测( 二 )


『』谷歌用MediaPipe实现手机高效实时3D对象检测
文章图片

文章图片

用于3D对象检测的网络架构和后处理 。
『』谷歌用MediaPipe实现手机高效实时3D对象检测
文章图片

文章图片

网络的样本结果:左边是带有估计边界框的原始2D图像;中间是高斯分布的对象检测;右边是预测的分割蒙版 。
4. MediaPipe中的检测和跟踪
当将模型应用于移动设备捕获的每个帧时 , 由于每帧中估计的3D边界框的歧义性 , 模型可能会遭受抖动影响 。为了缓解这种情况 , 谷歌采用了最近发布在2D object detection and tracking(2D对象检测和跟踪)解决方案中的检测+跟踪框架 。所述框架能够减轻在每帧运行网络的需求 , 从而支持计算量更大但因而更为准确的模型 , 同时在移动设备保持管道实时进行 。它同时可以跨帧保留对象身份 , 并确保预测在时间方面维持一致 , 从而减少抖动 。
『』谷歌用MediaPipe实现手机高效实时3D对象检测
文章图片

文章图片

为了进一步提高移动管道的效率 , 团队只是每隔几帧运行一次模型推断 。接下来 , 谷歌利用以前介绍过的方法进行预测并随时间进行跟踪 。当做出新的预测时 , 他们将根据重叠区域把检测结果与跟踪结果合并 。
鼓励开发者和研究人员根据其管道进行实验和原型设计 , 谷歌将在MediaPipe中发布所述的机器学习管道 , 包括端到端的移动演示应用 , 以及针对鞋子和椅子这两个类别的训练模型 。谷歌表示:“我们希望通过与广泛的研究和开发社区共享我们的解决方案 , 这将能够刺激新的用例 , 新的应用和新的研究工作 。我们计划在未来将模型扩展到更多类别 , 并进一步提高设备性能 。”


推荐阅读