|用神经网络给照片补光,谷歌这项研究却实现了「鬼片」效果( 二 )
通过将网络嵌入参数化纹理图集 , 并利用一组 One-Light-at-A-Time(OLAT)图像作为输入 , 实现可同时执行二次打光和视图合成的统一框架 。
提出了一组增强的纹理空间输入和一个基于物理精确漫反射基底的残差学习机制 , 使得网络能够轻松学习非漫射、高阶光传输效应(包括镜面高光)、次表面散射和全局照明 。
NLT 方法
研究者使用的框架是一个具备残差学习机制的半参数模型 , 旨在缩小几何代理(geometry proxy)的漫反射渲染与实际输入图像之间的真实感差距 , 具体如下图 2 所示 。
半参数方法用于融合先前记录的观察结果 , 以在任何预期的光照和视角下生成新的逼真图像 。 该方法得益于近年来计算机视觉领域的进展 , 使研究人员可以对人体对象实现精准的 3D 重建 。
本文插图
图 2:之前的 Relightables 方法(Guo 等人 , 2019 年)、该研究提出的 NLT 方法和真实图像之间的真实感差距 。
NLT 方法的模型架构如下图 4 所示:
本文插图
模型网络包含两个路径 , 分别是查询路径(Query Path)和观察路径(Observation Path) 。 其中「观察路径」以基于目标光源和视角方向采样的 K 个临近观察结果(作为纹理空间残差图)为输入 , 并将它们编码成多尺度特征 , 最后将这些特征池化以消除对顺序和数量的依赖 。
接着 , 将这些池化特征连接至「查询路径」的特征激活函数 , 「查询路径」以预期光源和视角方向(以余弦图的形式呈现)以及物理精确的漫反射基底(也在纹理空间中)作为输入 。 查询路径预测残差图 , 然后将其添加至漫反射基底 , 以生成纹理渲染结果 。
由于整个网络都嵌入在人体对象的纹理空间中 , 所以我们可以根据输入和监督信号训练同一个模型来分别执行二次打光和视图合成 , 或者同时执行这两个操作 。
实验结果
二次打光
如下表 3 所示 , 研究者对 NLT 方法与 Diffuse Base、Barycentric Blending、Deep Shading 等其他二次打光基线方法进行了定量评估 , 以 PSNR(峰值信噪比)、SSIM(结构相似性)和 LPIPS(学得感知相似性)作为评估指标 。
此外 , 研究者还对 NLT 方法进行了控制变量研究 。
结果表明 , NLT 方法的性能优于所有的基线方法 , 但 Diffuse Rendering 和 Barycentric Blending 等简单的基线方法也取得了较高的分数 。
本文插图
表 3:NLT 与其他 SOTA 二次打光方法的指标对比以及 NLT 的控制变量研究结果 。
本文插图
图 7:在使用平行光的二次打光任务上 , NLT、其他方法与真值图像的效果对比 。
视图合成
如下表 4 所示 , 研究者对 NLT 和其他基线二次打光方法的视图合成效果进行了定量分析 , 结果表明 NLT 优于所有的基线方法 , 并且效果可以与 Thies 等人(2019 年)提出的仅执行视图合成但不进行二次打光的方法相当 。
本文插图
表 4:NLT 与其他基线二次打光方法的视图合成指标对比 。
本文插图
图 9:NLT、其他基线方法与真值图像之间的视图合成效果对比 。
推荐阅读
- 科学,黑洞|满怀期待,第一张黑洞视界照片!
- |将量子计算机当作神经网络,首次模拟化学反应,谷歌新研究登上Science封面
- 人工智能|你亲手晒在网上的照片,正被人拿来喂养 AI
- 英伟达|网友晒出疑似英伟达GeForce RTX 3090显卡照片
- 小米手机|原创 小米手机新专利曝光:可移动的相机模块,让广角照片真实不畸形!
- |小米可变角度相机模组专利曝光,可以更好的拍摄广角照片
- 中年|在没有照片的古代,会不会发生伪造证件冒充官员的情况?
- 地球|已飞224亿公里,最远人造物拍的最后一张照片,为何让人类深思
- 整治|再也不怕PS过的“照骗”了,修改过的虚假照片将被整治
- 科学|已飞224亿公里,最远人造物拍的最后一张照片,为何让人类深思
