【深度学习】如何通过深度学习,完成计算机视觉中的所有工作?( 三 )


【深度学习】如何通过深度学习,完成计算机视觉中的所有工作?
本文插图

直接大量传递图像
视频帧可以通过几种方式传递:

  1. 直接在大批量中 , 例如第一个图 。 由于我们正在传递一系列帧 , 因此空间和时间信息都是可用的 。

【深度学习】如何通过深度学习,完成计算机视觉中的所有工作?
本文插图

单帧+光流(左) 视频+光流(右)
  1. 我们还可以在一个流中传递单个图像帧(数据的空间信息) , 并从视频中传递其相应的光流表示形式(数据的时间信息) 。 我们将使用常规2D CNN从这两者中提取特征 , 然后再将其组合起来传递给我们的3D CNN , 后者将两种类型的信息进行合并 。
  2. 将帧序列传递给一个3D CNN , 并将视频的光流表示传递给另一个3D CNN 。 这两个数据流都具有可用的空间和时间信息 。 鉴于我们正在对视频的两种不同表示(均包含我们的所有信息)进行特定处理 , 因此这是最慢的选择 , 但也可能是最准确的选择 。
所有这些网络都输出视频的动作分类 。 原文:https://towardsdatascience.com/how-to-do-everything-in-computer-vision-2b442c469928
【深度学习】如何通过深度学习,完成计算机视觉中的所有工作?
本文插图

【深度学习】如何通过深度学习,完成计算机视觉中的所有工作?
本文插图

  • 那个分分钟处理10亿节点图计算的Plato , 现在怎么样了?
  • 看似毫不相干 , 哲学与机器学习竟有如此大的交集
  • 黑客用上机器学习你慌不慌?这 7 种窃取数据的新手段快来认识一下
  • “谷歌杀手”发明者 , 科学天才 Wolfram
  • 数据库激荡40年 , 深入解析PostgreSQL、NewSQL演进历程
  • 5分钟!就能学会以太坊 JSON API 基础知识


推荐阅读