机器之心|屏下摄像头效果不好?微软:上神经网络,还原更真实的可视会议效果


如何实现真正的眼神交流?一切都得看屏下摄像头和深度学习技术 。
机器之心|屏下摄像头效果不好?微软:上神经网络,还原更真实的可视会议效果
本文插图

把摄像头放在屏幕下的想法并不新奇 , 在视频会议这个交流方式刚刚出现时 , 人们就意识到把摄像头和屏幕分设在不同位置让人交流起来非常别扭 。 眼神交流是沟通的关键因素 , 但如今的视频会议仍然无法在人们之间建立起这种联系 。
压缩传感器尺寸是屏下摄像头出现的另一大动力 。 我们或许可以在今年晚些时候买到带有屏下摄像头的手机 , 首款量产机 OPPO Find X2 Pro 在 7 月初已经有了定妆照 。 在手机这样的小型设备上想要最大化屏幕尺寸 , 往往意味着摄像头、听筒和各种传感器都得想办法靠边站 。
把相机放在屏幕后面 , 我们就可以获得一台完美的全面屏手机 , 但这也意味着前摄画质的降低 。 屏幕像素结构的衍射可以使摄像头接收的图像变得模糊 , 对比度降低 , 获得的光线显然也会变少 , 屏幕甚至会完全阻挡某些图像内容 , 具体方式取决于设备的显示像素设计 。
另一方面 , 在视频会议中 , 除了眼神不能对焦之外还有其他感官扭曲之处 , 比如缺乏空间位置的直观展示 。
最近 , 微软提出了使用机器学习解决这些问题的方法 , 不论是图像质量还是人物在图像中的位置 , 现在都可以变得更好 。
透视问题
摄像头位于显示屏上方对于屏幕会议来说会产生一种视觉差 , 屏幕越大情况越明显:说话人看起来总是仰望的状态 。 相机与显示器的距离会让参与者们体验不到眼神交流的感觉——我看着屏幕中的你 , 你却只能看着摄像头说话 , 其中一个人就会错过很多微妙的非语言反馈提示 。
这样看起来更像是监视而不是一场对话 。
机器之心|屏下摄像头效果不好?微软:上神经网络,还原更真实的可视会议效果
本文插图

视线的落差会让视频会议的效果打上折扣 , 无法充分展示每个人的存在感 , 重现面对面谈话的所有潜力 。 只有把摄像头放在屏幕下才能充分发挥眼神交流的潜力 。
衍射的问题
通常 , 使用透明的 OLED 屏幕(T-OLED)可以允许摄像头在屏幕后拍摄出可用照片 , 但即使这样的屏幕也不是完全透明的 , 光线透过这一层会引入衍射和噪声 , 从而降低图像质量 。
如下图所示 , 我们可以看到通过 T-OLED 屏幕拍摄简单图像的效果:
机器之心|屏下摄像头效果不好?微软:上神经网络,还原更真实的可视会议效果
本文插图

屏幕的像素结构会影响衍射 。 在一些屏幕中 , 会留有缝隙允许摄像头进行观察:
机器之心|屏下摄像头效果不好?微软:上神经网络,还原更真实的可视会议效果
本文插图

成像器(右侧)透过 T-OLED 像素结构中的垂直间隙进行观察 。
毫无疑问 , 这会导致明显的降级 , 但只会出现在水平方向上 。 我们可以通过绘制调制传递函数(modulation-transfer function, MTF)来可视化此效果:
机器之心|屏下摄像头效果不好?微软:上神经网络,还原更真实的可视会议效果
本文插图

使用 U-Net 进行图像恢复
为了补偿通过 T-OLED 屏幕拍摄时无法避免的图像质量下降 , 研究人员使用 U-Net 神经网络结构对其进行恢复 , 既可以改善信噪比又可以对图像进行模糊处理 。
U-Net 最初是一个用于分割生物医学图像的卷积神经网络 。 它的架构由两部分组成 , 左侧是提取路径 , 右侧是扩展路径 。 提取路径用来捕获上下文 , 扩展路径用来精准定位 。 提取路径由两个 3×3 的卷积组成 。 卷积后经过 ReLU 激活和用于降采样的 2×2 最大池化计算 。
机器之心|屏下摄像头效果不好?微软:上神经网络,还原更真实的可视会议效果


推荐阅读