2D景观转3D风景大片,无惧复杂光线与遮挡,人类离「躺着旅行」的梦想又近了一步

万物皆可转 3D。

上班的时候想旅行,休假的时候想躺着,这是大多数年轻人的状态。如果能够躺在床上旅行,岂不美哉?



在古代中国也有「卧游」的典故,凡所游履,皆图之于室,可惜当时的技术条件跟不上,只能欣赏画卷上的美景。


面对新冠疫情的蔓延,人们不得不限制外出,取消各类出行计划,「卧游」的需求也变得更加急切。当然,这一需求可以通过 VR、AR 技术来满足,但前提是,你要有足够逼真的 3D 图像才能让人有身临其境的感觉。


前段时间,加州大学伯克利分校、谷歌的研究者开源了一款效果不错的 2D 图像转 3D 模型——NeRF,可以利用少数几张静态 图像生成 多视角的逼真 3D 图像。


NeRF 模型 demo。论文及项目地址:https://www.matthewtancik.com/nerf


但这一模型也有缺陷:如果环境中出现了明显的光线变化或人、物移动造成的遮挡,模型的性能会大打折扣。对于「卧游」这种需要呈现户外景点的场景来说,NeRF 的适用范围可能非常有限。


谷歌的团队也看到了这种缺陷,并在最近的一项研究中推出了 NeRF 模型的改进版——NeRF in the Wild(NeRF-W),使其更加适用于充满光线变化、遮挡的户外环境。


目前,研究者已将 NeRF-W 应用于几个具有挑战性的自然文化地标照片集,这些生成的效果图在各项指标上均实现了新的 SOTA。


NeRF-W 捕捉了低维潜在嵌入空间中的光线和光度后处理。在两个嵌入之间进行 插值 ,可以平滑地捕获外观的变化,而不影响 3D 几何形状。


外观嵌入插值




该模型将光线从基础 3D 场景几何中分离出来,即使光线发生变化,3D 场景几何仍可保持一致:


几何一致性。


研究者对 NeRF-W 在合成设置中的个体增强进行了详细的控制变量研究,验证了每一次增强都会产生预期效果。在质量控制设置类似的前提下,NeRF-W 在外观变化和瞬时遮挡物挑战中实现的质量提升远远超过 NeRF。


勃兰登堡门。


圣心大教堂。


特雷维喷泉。


NeRF-W 改进了什么?




利用一组稀疏的捕获图像合成场景的新视图是 计算机视觉 领域长期存在的挑战,也是许多 AR 和 VR 应用的基础。


传统技术已使用「structure-from-motion」或基于图像的渲染解决了这个问题。近来,由于神经渲染技术的出现,该领域又取得了重大的进展。


加州大学伯克利分校、谷歌等机构提出的神经辐射场(NeRF)方法在 神经网络 权重 范围内,隐式建模了辐射场和场景的密度。然后用直接体积渲染合成新视图,从而在一系列具有挑战性的场景中展示出前所未有的保真度。但是,这仅证明了 NeRF 在受控环境下运行良好:场景是在较短的时间范围内捕获,在此期间,场景中的光照条件保持恒定,而且所有内容都是静态的。


NeRF 的局限性在于,当场景内出现移动的物体或光照发生变化时,模型的性能会大大降低。这些缺陷限制了 NeRF 在自然环境中的应用。因为在自然环境中,图像的拍摄时间可能间隔数小时、数天甚至数年,而且场景中可能包含行人和汽车。


NeRF 假设世界在几何、物质和光度学上是静态的,即世界的密度和辐射(radiance)都是恒定的。因此,NeRF 要求在相同位置和方向拍摄的任何两张照片必须具有相同的像素强度。


但现实世界中的许多数据集都不符合该假设。例如,在著名旅游地标的大规模互联网照片集中,两位摄影师可能站在相同的位置并拍摄相同的地标,但是在这两张照片的时间间隔里,世界可能已经发生了巨大的变化:车、人会动,天气、气候也会变…… 即使在同一时间同一位置拍摄的两张照片也可能存在很大差异:曝光、色彩校正和色调 映射 可能都有所不同。


本文实验部分表明:将 NeRF 直接应用于室外照片集会导致严重的重影、过度平滑和其它瑕疵。


为了能够处理这些复杂的场景,来自谷歌的研究者提出了「NeRF-W」。




论文链接:https://arxiv.org/pdf/2008.02268.pdf


首先,研究者对每张图片的外观变化进行建模,包括曝光、光线、天气,并使用一个学到的低维潜在空间进行后处理。


根据 GLO(Generative Latent Optimization)模型的框架,研究者优化了每个输入图像的外观嵌入,从而让 NeRF-W 具备通过学习整个照片集的共享外观表征来解释图像之间光度与环境变化的灵活性。学习的外观潜在空间提供了对于输出渲染外观的控制,如下图 1 所示。




然后,研究者将场景建模为共享元素和基于图像元素的组合,从而能够在无监督的条件下将场景内容分解为静态组件和瞬态组件。这种分解实现了地标 3D 视图的高保真合成,而不会产生由输入图像中动态视觉内容所产生的伪影。本文所提出的方法将瞬态元素建模为一个二级体积辐射场(secondary volumetric radiance field)和一个数据相关的不确定场(datadependent uncertainty field),后者能够捕获变化的观测噪声,进一步减少瞬态物体对静态场景表征的影响。


具体方法




与 NeRF 类似,研究者从非结构化照片集 中学得了一种体积密度表征 F_θ,该照片集中的相机 参数 可用或已估计。从本质上讲,NeRF 假定其输入视图一致。但是,如图 2 所示,互联网照片并不遵循如此严格的假设。有两个违背这一假设的现象:1)光度变化,2)瞬时目标。




研究者提出了两个模型组件来解决这些问题。下图 3 展示了 NeRF-W 的模型架构。






潜在外观建模




为了使 NeRF 适应变化的光线和光度后处理,研究者在公式 (1) 中引入对期望颜色的图像索引 i 的依赖:




T(t)如此前定义。




研究者采用了 GLO 模型,其中每个图像 I_i 被相应分配了一个长度为 n^(a)的实值外观嵌入向量 。在 NeRF 中,研究者用数值积分近似方程(8),用基于图像的辐射




代替了基于图像的辐射 c(t)。


嵌入 1在与 NeRF 参数 θ一起训练的过程中进行了优化。




图 8:注意人物(左)和光线(右)没有出现在渲染图中。外观嵌入修改了渲染的颜色和光线,而不影响 3D 几何。


瞬时目标


研究者通过两种方式来帮助 NeRF 应对瞬时目标。


首先,他们利用瞬时目标的一个显式表征增强了 NeRF 的体积辐射场,这使得 NeRF-W 可以重建包含遮挡的图像,同时不在静态场景表征中引入瑕疵。


其次,他们没有直接建模观察到的颜色,而是针对该值建立了一个 概率分布 模型。具体来说,他们将每个像素的颜色建模为各向同性正态分布,并使用与 NeRF 相同的体积渲染方法生成其均值和方差。这使得 NeRF-W 在渲染可能包含遮挡的像素时能够表达不确定性。


这两种方法使得 NeRF-W 可以在没有显式监督的条件下分离静态和瞬时目标。




实验


为了验证 NeRF-W 的效果,研究者设计了两个领域的实验,一个实验用的是网络上找到的旅游目的地地标照片,另一个用的是合成场景的渲染图像。


旅游照数据集


下图 7 显示了基线模型和 NeRF-W 在旅游照数据集上得到的定性评估结果。NeRF-W 能够同时建模外观变化、消除瞬间遮挡并捕捉一致的 3D 场景几何。






下表 1 展示了定量对比结果。从中可以看出,NeRF-W 在所有数据集的所有指标上都超越了基线模型。在 PSNR(峰值信噪比)指标上,NeRF-W 比之前的 SOTA 模型 NRW 平均高出 5.7dB。






乐高数据集


第二项评估是在合成的乐高数据集上完成的。研究者引入了两类扰动(着色和遮挡)来模拟室外环境可能带来的挑战:光照变化和瞬时目标。


如下表 2 所示,在原始数据集上,所有模型的表现几乎相同。NeRF 无法处理存在不同程度扰动的数据集。NeRF-U 处理颜色比较失败,但在遮挡的处理上优于 NeRF。NeRF-A 擅长颜色,但遮挡处理不好。只有 NeRF-W 可以两者兼顾(如下图 10 所示)。




理论 3D建模 图像生成 神经网络