私生饭手机拍照自动抠图、秒变PS素材:华人团队技术实现一键“剪切现实”
最近 , 一段模糊了虚拟和现实边界的黑科技视频在 Twitter 上爆红 , 目前已经获得了数万点赞和转推 。
本文插图
视频中 , 开发者 Cyril Diagne 用自己的手机拍下身边的绿枝、书本、衣服等物体 , 手机立刻把物体从画面中抠了出来 。
接下来发生的事情更加神奇:他把手机摄像头对准电脑的屏幕 , 刚才抠出来的物体 , 竟然自动添加到了电脑正在运行的 Photoshop 上!
几秒钟前还在现实中的物体 , 竟然就这么被复制到了虚拟的世界里 。
可能令许多摄影师、设计师朋友感到嫉妒的是 , Diagne 的这一通操作是完全自动化的 , 并没有用到数据线 , 没碰键盘 , 也没用鼠标做任何调整——剪贴进去的图像 , 就这么准确地出现在他用手机瞄准的画面位置上 。
Diagne 将这套非常神奇的抠图技术命名为 AR Cut & Paste(增强现实剪切粘贴) 。 目前针对 Photoshop 的支持已经开发出来了 , 不过他也表示其它软件也是可以支持的 。
他也把 AR Cut & Paste 放到 GitHub 上开源了 。 从介绍和代码中我们得以一窥 , 这么有趣的技术 , 到底是怎么实现的 。
秘诀:华人团队开发的图像识别模型
在抠图的阶段 , AR Cut & Paste 使用的是一个名叫BASNet的深度神经网络 。
在过去 , 机器学习领域在利用深度卷积神经网络进行物体识别方面 , 已经取得了非常不错的结果 。 不过通过神经网络进行的图像中物体识别 , 主要目标是区域准确性 , 而非边界准确性 。
简单来说 , 就是这些物体识别技术 , 能够很准确地答出画面中的物体分别是什么:
但是想要准确画出识别出的物体的边框 , 就很难:
本文插图
于是 , 加拿大阿尔伯塔大学的一个以华人为主的团队 , 开发出了一个全新的深度神经网络模型 。
BASNet 的主要功能是进行显著性检测 , 简单来说 , 就是对画面中最显著的物体实现准确的边界划定 , 效果就像 PS 高手人工“抠图”一样 。
BASNet 采用了预测-优化的思路 , 主要使用的是 Encoder-Decoder 网络结构 , 底层采用的是微软团队开发的残差网络 ResNet 。
在预测部分 , 一个密集监督的 Encoder-Decoder 网络负责预测预测画面中物体的显著性 , 借助三种不同损失函数 , 让神经网络可以在像素 (pixel)、像素区域 (patch) 和全图 (map) 这三个层级上进行显著性判定 , 从而输出更准确的结果 。
在优化部分 , 仍然是由 Encoder-Decoder 结构组装成一个残差优化模块 (RRM), 对预测部分输出的显著图进一步优化 。
【私生饭手机拍照自动抠图、秒变PS素材:华人团队技术实现一键“剪切现实”】
本文插图
从下图中可以看到 , 和其它同类和类似的物体识别模型相比 , BASNet 的边界划定效果相对更加准确 , 和手动画出的标准答案最为接近 。
不仅如此 , BASNet 对于计算性能的优化做的也不错 , 可以在单一 GPU 上运行达到25帧每秒(需要你的电脑上有支持 CUDA 的 GPU) 。
本文插图
这篇论文在去年被计算机视觉方面的顶级学术会议 CVPR 2019 所收录 。
BASNet 的开发团队来自于加拿大的阿尔伯塔大学计算机系 。 第一作者是该校机器人和视觉实验室的秦雪彬博士 , 曾经就读于山东农业大学和北京大学 。
从网站上也能够很清楚地看出 , 在各种图像视频中进行物体显著性/边界划定 , 是秦雪彬最拿得出手的研究:
推荐阅读
- 科技圈|4299元起iPhone 11跌至谷底价,华为小米等国产手机真难过
- 小墨看科技|手机游戏蓝牙耳机哪款好?618游戏蓝牙耳机购买清单
- 潍坊晚报|手机使用四年,凌晨自燃吓坏一家人
- LAO哥测评|一部苹果手机,能够让国人狂乱到什么程度?
- 大嘴猴侃科技|苹果公司突然宣布!iPhone最高直降2000元,国产手机面临严峻考验
- 黑猫评测|明明都是国产手机,为什么有些人更偏爱华为,却不喜欢小米?
- 手机之家|暗光场景同价位领先 荣耀 X10 拍照体验
- 手机之家|亮点远不止微云台 5G/ 轻薄 / 充电快的 vivo X50 Pro 体验
- 手机之家网|十代酷睿i3-10100开卖 1099元 无“F”不带核显版本
- 手机之家网|杨柘加入小米任首席营销官 小米或加强高端品牌形象建设
