GeoFill：基于参考的图像修复，具有更好的几何理解

172 浏览量更新于2023-10-16 收藏 15.56MB PDF 举报

单目深度估计

性能优化

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17760GeoFill：具有更好几何理解的基于参考的图像修复0Yunhan Zhao 1* ，Connelly Barnes 2 ，Yuqian Zhou 2,3 ，Eli Shechtman 2 ，Sohrab Amirghodsi 2 ，Charless Fowlkes 101 加州大学尔湾分校 2 Adobe研究 3 UIUC IFP0{yunhaz5，fowlkes}@ics.uci.edu {cobarnes，elishe，tamirgho}@adobe.com yuqian2@illinois.edu0摘要0参考引导的图像修复通过利用另一张单一参考图像的内容来恢复图像像素。主要挑战是如何将参考图像的像素精确地放置到空洞区域。因此，了解两个视图之间关联像素的3D几何关系是构建更好模型的关键步骤。鉴于处理各种类型的参考图像的复杂性，我们专注于由同一摄像机自由移动拍摄的情况。与以前的工作相比，我们提出了一种不对场景的平面性做启发式假设的原则性方法。我们利用单目深度估计和预测相机之间的相对姿态，然后通过可微分的3D重投影和相对姿态和深度图缩放和偏移的联合优化将参考图像与目标图像对齐。我们的方法在具有大基线、复杂几何和极端相机运动的RealEstate10K和MannequinChallenge数据集上实现了最先进的性能。我们通过实验证实我们的方法在处理大空洞方面也更好。01. 引言0图像修复旨在在给定的空洞区域内合理地恢复缺失的像素。现有的单幅图像修复模型[64, 58,65]通过利用从大规模训练数据中学到的知识或图像中现有的补丁来解决这个问题，而不需要额外的信息。当输入图像包含大空洞且填充区域在结构和纹理上复杂时，这些方法变得不太可靠。2021年，Zhou等人提出了一种称为基于参考的图像修复的新颖修复任务。它旨在使用同一场景的另一张单一源照片填补“目标”图像的空洞区域。这个前景参考0* 在Adobe实习期间完成的工作。0图1：给定一张参考图像和一张带有空洞的目标图像，GeoFill利用预测的对应匹配和深度图来估计3D网格和相对相机姿态和内参。与先前的最先进方法TransFill相比，GeoFill通过迭代地改进预测的深度图和相对姿态来更好地处理复杂场景。0移动应用程序在人们在博物馆或著名地标拍照时尤其有用，因为背景是独特的。对于这种情况，现有的单幅图像修复几乎不可能忠实地恢复实际背景中的内容。基于参考图像的修复具有吸引力和必要性，也是可行的，因为可以使用在不同视点下拍摄的其他照片，例如用户的相册甚至从互联网上下载的照片。然而，基于参考图像的图像修复非常具有挑战性且尚未得到很好的探索。这是因为基于参考的修复是一项以摄影为导向的任务，只有一个单一的参考帧作为“源”，并且目标和源之间通常存在大的基线或具有挑战性的相机运动。因此，由于视差等问题，目标和源图像不能轻松对齐以填补空洞。为了解决对齐问题，之前的最先进方法TransFill[79]有一个强假设，即场景可以由多个平面结构混合。它对匹配特征点上的预测深度进行聚类，并利用多个单应性填补空洞。然而，真实场景很少只由几个平面表面组成，即使是这样，也很难识别。17770图2：我们系统流程的概述。我们有一个带有空洞的目标图像和一个源图像。我们的目标是将单一源图像变形到目标图像以填充空洞。我们首先估计相对姿态，并预测源图像的单目深度，然后调整深度图的比例和偏移量。之后，为了减少深度模型可能引起的错误，我们联合优化相机相对姿态和深度图的比例和偏移量，使深度图和图像内容在空洞区域附近对齐。最后，我们使用后处理渲染重新投影的源图像并进行细化。0识别相关的平面表面。这表明，为了更好地解决基于参考的修复问题，理解相机位置和三维场景的几何特征是至关重要的，特别是在空洞区域附近，以便找到适合填充空洞的内容。0在这项工作中，我们提出了一种更加原则性的方法，通过从两个有限视图中明确估计三维场景结构来填补空洞区域。具体而言，我们首先估计稀疏特征对应关系，从中得出两个视图之间的初始相对姿态。然后，我们预测源图像的单目密集深度图，并使用稀疏的三维三角化点云确定与目标对齐的比例和偏移量。为了减少预测误差并提高对齐精度，我们接下来通过快速可微分的三维重投影将深度比例和偏移量以及相对姿态进行联合优化，将源图像合成为使用优化的深度和目标姿态渲染的纹理源网格，并使用单一图像修复填充不可见区域。最后，在将结果粘贴回空洞区域之前，我们调整曝光、白平衡、照明并纠正任何残余的不对齐。0总之，我们的GeoFill是第一个应用更加原则性的方法进行基于参考的修复的方法，即仅通过有限的双视图RGB图像（无相机姿态信息）来利用显式的非平面三维场景表示。与之前的最先进方法相比，GeoFill更好地处理了空洞中的复杂三维场景结构、宽基线图像对和更大的空洞。大量实验证明我们的方法在各种场景的基准测试和实际用户案例中都达到了最佳的感知质量。02. 相关工作0图像修复。传统的图像修复模型依赖于手工设计的启发式方法。基于扩散的方法[6]将像素颜色从背景传播到空洞区域。当空洞尺寸较大或纹理变化显著时，这些方法会生成伪影。相反，基于补丁的方法[56,3]在空洞区域外搜索相似的补丁来完成缺失区域。虽然这些方法通过复制纹理补丁提供了高质量的纹理，但由于缺乏对整个图像的高层次结构理解，填充区域可能与空洞周围的区域不一致。最近的深度模型通过从大量的训练数据中学习来填充空洞。上下文编码器[41]通过对周围环境进行编码，在空洞中生成语义上合理的内容。Iizuka等人[25]采用了两个鉴别器来确保修复的内容在局部和全局上都是一致的。可以通过使用部分[31]或门控[65]卷积来减少沿着空洞边界的伪影。一些最近的修复模型通过使用额外的信息，如边缘[38]、分割掩模[50]和低频结构[46,30]，来改善生成的图像质量。此外，一些论文表明深度神经网络可以填补高分辨率图像上的空洞[61, 63,67]。尽管单一图像修复模型取得了显著的进展，但使用单一图像进行填补仍然是一个基本的不适定问题[75]。文献中还探讨了使用附加信息进行图像修复的方法，例如使用立体图像进行修复[54, 7, 2, 37,36]和利用多个图像[51]。TransFill[79]与我们的工作密切相关：它通过使用多个单应性变换对参考图像进行引导修复。然而，由于单应性变换的平面性质，TransFill在处理具有复杂三维结构的图像对方面能力有限。17780特征，宽基线或明显的不连续性。视频修复。经典的方法主要集中在全局优化基于补丁的能量[42, 57,18]。最近的工作通常采用深度生成模型以获得更好的修复性能。Wang等人引入了一个数据驱动的框架，同时学习时间结构和空间细节[52]。Onion-Peel Network (OPN)提出了使用时空注意力逐步填充缺失区域的方法[39]。Spatial-Temporal Transformer Net- work (STTN)采用了一个深度生成模型，通过空间-时间维度上的对抗训练来减轻模糊和时间伪影[66]。请注意，视频修复方法在视频中充分利用了密集的时间信息，而我们只有一个单一的参考图像，这是一个更困难的场景。两视图几何。SfM在两个单目帧之间建立对应关系，然后估计3D结构[20, 49,77, 53,35]。在经典的几何视觉中，人们很清楚，仅通过特征匹配点就可以计算出相应点的相机姿态以及深度[32,22]。传统方法利用手工设计的描述符[33, 5,47]建立稀疏对应关系，然后使用8点算法[21]估计基础矩阵。近期的工作表明，学习的局部特征结合基于学习的特征匹配模型（如 SuperGlue [48] 或可微分的 RANSAC [8, 44,9]）在这方面取得了巨大成功。另一种选择是使用端到端的姿态估计网络直接估计相对姿态[26]。我们利用了这些最近的进展（具体来说是 OANet [68]）。我们的方法使用了受SfM启发的组件，但我们的可微联合优化阶段是新颖的，并且经过了精心设计以适应我们的任务。单目深度估计。从单个图像预测深度是一个不适定问题。然而，基于学习的方法通过将单目深度估计视为回归或分类任务来展现出令人印象深刻的性能[15, 27, 59, 19, 60, 17, 23, 1, 28, 74, 24,73]。最近的进展包括 BTS[28]，它引入了局部平面引导层，在解码阶段将特征引导到完整分辨率，而不是标准的上采样层。DAV[24]通过深度-注意力体积利用场景中物体的共面性。DPT[43]利用变换器的高质量中间表示，并成为最先进的方法。03. 方法0假设我们有一个目标图像 I t ，其中包含一个要填充的孔 M，以及一个相同场景的参考（源）图像 I s。我们的目标是找到一个具有3D感知的扭曲源图像 I s → t，将源图像几何地对齐到目标图像，以用于填充孔。最终的合成图像可以表示为 I comp t = I t ⊙ M +0( M single I s → t + (1 − M single ) ⊙ I single ) ⊙(1 − M ) ，其中 M single是混合映射，用于将扭曲的源图像与单图像修复结果 Isingle 合并。请注意，理想情况下，GeoFill应该有足够的内容可以从源图像复制到目标孔区域，即源图像 I s是有用的。在孔内只有很少的目标-源内容像素重叠的情况下，GeoFill 将退回到单图像修复 I single。0为了计算最终的扭曲矩阵并使用它来重新投影源图像，如图2所示，我们提出了一个由三个阶段组成的流程，分别命名为初始化、联合优化和渲染与后处理。在第一阶段，我们建立了 I s 和 I t之间的稀疏对应关系，并估计了两个视图之间的相对姿态 Trel。同时，我们使用预训练的深度模型获得了源图像的密集深度图。然后，我们将预测的深度图的尺度和偏移与稀疏的3D三角化特征点对齐。在第二阶段，我们通过优化相关参数来减轻姿态和深度初始猜测的潜在错误，以使内容在孔附近对齐良好。最后，我们使用优化后的参数渲染扭曲图像，并对其进行后处理，以解决任何残留的空间和颜色不对齐问题，如 TransFill。我们将在下面的章节中介绍每个阶段。03.1. 初始化阶段0初始化相对姿态我们的方法首先根据预测的稀疏对应估计相对姿态 Trel。我们提取目标图像和源图像之间的稀疏对应特征点 P t和 P s，并使用RANSAC [16]的标准化8点算法[21]计算 I s和 I t 之间的基础矩阵 F。从 F中，我们使用[21]中提到的经典多视图几何算法推导出相对姿态 T rel。0初始化密集深度图我们使用预训练的单目深度估计器在源图像上预测逆深度图，作为估计真实源深度的线索来计算3D感知的变换 I s →t。然而，源深度是由预训练的深度模型预测的未知尺度和偏移，因此我们需要解决这些问题，使得初始源深度 D i s最好地匹配估计的相对姿态。注意，T rel中的估计平移是归一化的，并且与预训练深度模型中预测的深度图中的任意尺度不匹配。如[72]所建议的，将密集深度与稀疏三角化点对齐比重新调整相对姿态要简单得多。因此，我们首先使用相对姿态三角化点，然后将深度预测的尺度与三角化对齐，以随后匹配相对姿态的尺度。0具体而言，具有点 q s 的3D三角化点 x ∈,(4)17790P s 和 q t ∈ P t 的计算如下：0x � = argmin x [ E ( r s , x )] 2 + [ E ( r t , x )] 2，(1)0其中 r s 表示从源相机中心通过图像平面上的点 q s射出的射线，r t 是从目标相机中遵循类似类比的射线，E衡量两个输入之间的欧几里得距离。通过这种方式，我们使用所有匹配的稀疏对应计算一组3D三角化点X。为了构建计算尺度和偏移的线性问题，我们首先通过将3D三角化点投影到源相机坐标中计算出稀疏三角化深度图 Dtri。注意，D tri与相对姿态具有相同的尺度。因此，我们校正 D s 以匹配 Dtri，从而匹配相对姿态的尺度。我们通过解决线性最小二乘问题来估计两个与深度图相关的标量，即与深度图相关的尺度 s i 和偏移 b i。然后，初始深度图表示为：D i s = s i Ds + b i。03.2. 联合优化阶段0为了减轻稀疏对应和深度估计中潜在错误的影响，因为深度模型可能不够稳健或泛化，我们进一步引入了一个优化模块来提高 I s → t 的质量。我们优化共同定义 3D 场景中的 I s→ t的深度尺度、偏移和相对姿态。具体而言，我们将旋转矩阵转换为四元数，这导致了总共9个要优化的参数。相对姿态和在前一节中计算的初始深度被用作优化的初始猜测。我们的优化包含3个不同的损失函数：多尺度光度损失 L photo，特征对应损失 L feat 和负深度惩罚 L negD。多尺度光度损失 L photo 用于测量 I s → t 与 I t在孔洞区域之外的像素级颜色差异。我们对 I s → t 和 I t进行降采样，并在不同分辨率上对归一化的颜色差异进行求和。具体而言，我们在源图像上和目标图像上分别构建高斯金字塔，使用RGB表示源图像，使用alpha预乘的RGBA表示目标图像，以正确地将孔洞区域合并到目标图像中。在每次迭代中计算多尺度光度损失显然是计算代价昂贵的。此外，由于初始化不良，优化可能也会陷入与最细分辨率相关的局部最小值中[80]。为了加速计算速度并找到更好的解决方案，我们采用了粗到精的优化策略，这意味着我们首先在最粗的级别上计算光度损失，并在当前金字塔级别满足收敛条件后转移到更细的级别。此外，我们不再在每次迭代中构建3D三角网格并从目标视图进行渲染。0我们使用一种更高效的可微分的3D重投影方法来找到一个从Is计算Is→t的变形场。数学上，我们有：0Is→t = bilinear(Is, reproj(K, Trel, Dos)), (2)0其中reproj()表示重投影操作。在金字塔的给定分辨率上的光度损失为：0Lphoto = 10|M|0W ⊙ ||Is→t ⊙ M - It ⊙ M||2. (3)0这里W是一个稍后讨论的像素重要性权重图。特征对应损失Lfeat计算源图像和目标图像中重新投影的匹配特征点之间的距离。我们对Ps中的所有2D图像坐标使用reproj()运算符得到另一个集合Ps→t。然后，我们计算Ps→t和Pt之间的平均距离。然而，所有点的平均距离对异常值非常敏感，即很少的异常值主导了损失函数。为了减少异常值对损失函数的影响，我们采用了[4]中的一般鲁棒损失函数。损失函数的一般形式为：0f(x, α, c) = |α - 2|0α0α(x/c)0|α - 2| + 1 / (α/2 -1)0≤0其中α和c是形状和尺度参数，分别。在我们的实验中，我们设置α = -2和c = 10。然后，特征对应损失可以写成：0Lfeat = 10|Ps→t|0|t0m=0 W(qmt)f(||qms→t - qmt||, α, c),(5)0其中f是一般的鲁棒损失函数，qms→t和qmt分别是Ps→t和Pt中的第m个点。负深度惩罚LnegD旨在惩罚重新映射深度中的负值。尽管深度预测具有任意的比例和偏移，但它们应该具有所有正值，这意味着与像素相关联的几何片段永远不应该移动到相机后面。数学上，我们采用了一个铰链损失函数：0LnegD = max{0, -Dos}. (6)0我们的最终目标函数可以写成：l = λ1L photo + λ2L feat + λ3LnegD，其中{λj}是权重。收敛准则在补充材料中讨论。像素重要性权重图W。在计算光度损失或特征对应损失时，我们为每个像素分配权重以替代均匀加权。它鼓励我们的优化在局部和全局上更好地对齐变形的源图像和目标图像。第一种加权策略是孔距离加权Wh。我们鼓励优化集中在孔边界附近的区域，因为这些像素对于填充孔区域更重要。为了实现这一点，我们对孔图像应用距离变换，并获得距离图Mh，其中每个像素记录到孔Mh最近边界像素的欧氏距离。我们使用高斯函数计算每个像素的权重Wh = exp(-Mh^2 /2σ^2)，其中σ是一个超参数，调整权重相对于距离孔边界的变化。第二种类型是基于边缘的加权We。这是因为高梯度边缘区域在检查对齐质量时更加显著，因此我们打算给予强边缘更大的权重。我们通过首先对It使用N个不同的核大小进行高斯模糊，运行Canny边缘检测器[10]，并膨胀每个边缘来计算多尺度Canny边缘图，得到{e1，e2，...，eN}。我们的像素级基于边缘的权重图变为We = ΣNk=1ek / Σ17800在靠近孔边界的区域上，我们鼓励优化更加重视这些像素，因为这些像素对于填充孔区域更重要。为了实现这一点，我们对孔图像应用距离变换，并获得距离图Mh，其中每个像素记录到孔边界像素的欧氏距离。我们使用高斯函数计算每个像素的权重Wh = exp(-Mh^2 /2σ^2)，其中σ是一个超参数，调整权重相对于距离孔边界的变化。第二种类型是基于边缘的加权We。这是因为高梯度边缘区域在检查对齐质量时更加显著，因此我们打算给予强边缘更大的权重。我们通过首先对It使用N个不同的核大小进行高斯模糊，运行Canny边缘检测器[10]，并膨胀每个边缘来计算多尺度Canny边缘图，得到{e1，e2，...，eN}。我们的像素级基于边缘的权重图变为We = ΣNk=1ek / Σ0p e k ( p )，其中内部求和是在空间坐标上进行的。我们的整体加权映射03.3. 渲染和后处理阶段0网格渲染。优化后，我们找到了相机相对姿势和深度图的尺度和偏移量。然而，使用深度重投影计算I s →t时，由于在优化的内循环中依赖于前向变形，始终存在一些有效像素之间的间隙。解决这个问题的一种方法是插值，但它有两个缺点。首先，重新投影的图像是稀疏的，对于具有多个深度层的区域，远处深度层的像素可能会在较近的深度层的像素之间产生分散，这可能导致插值不能完全去除隐藏的表面。此外，插值无法区分由于消失区域或前向变形导致的像素之间的简单间隙。为了解决上述问题，我们选择渲染带纹理的网格来获得最终的I s→t。我们首先从源视图中构建一个带有规则网格的三角形网格。网格顶点通过将优化的深度D os投影到3D空间中，并且纹理是源图像的RGB颜色。在获得网格后，我们删除深度不连续性周围的边缘。我们采用了一个简化版本的足迹算法[55]，通过比较相连顶点之间的深度值来判断是否删除两个顶点v i和v j之间的边缘，如果2 | d(v i) - d(v j) | d(v i) + d(v j) > ϵedge，其中d(v i)是顶点v i的深度值，ϵedge是预定义的阈值。在构建三角形网格后，我们使用T orel渲染目标视图。请注意，在渲染之前，我们还将网格归一化到单位大小。带纹理的网格密集地填充像素并去除隐藏的表面。它还允许我们使用渲染的alpha通道来找到与网格没有射线交点的像素，这些像素代表深度不连续性附近的消失区域或照片外部的区域。0d(v i) + d(v j) > ϵ edge，其中d(v i)是顶点v i的深度值，ϵedge是预定义的阈值。在构建三角形网格后，我们使用T orel渲染目标视图。请注意，在渲染之前，我们还将网格归一化到单位大小。带纹理的网格密集地填充像素并去除隐藏的表面。它还允许我们使用渲染的alpha通道来找到与网格没有射线交点的像素，这些像素代表深度不连续性附近的消失区域或照片外部的区域。0照片：这些照片后来由单幅图像修复填充。我们使用PyTorch3D[45]作为我们的渲染器。细化和合并。使用渲染的图像，我们应用TransFill的颜色空间变换（CST）模块，进一步改善任何小的残余空间错位，并纠正颜色和曝光差异。最后，我们将CST的输出与单幅图像修复模型的结果合并，如TransFill中处理消失区域和照片外部的区域。04. 实验0数据集。目前没有针对基于参考的修复的大规模图像数据集可用。因此，我们遵循Trans-Fill的方法，从基于视频的数据集中随机采样多个图像对，因为这样更容易模拟用户行为并分析目标和源之间的差异（或相机视角的变化）。在评估过程中，我们只使用一个参考帧。这与视频修复的工作不同。我们遵循DeepFillv2[65]的方法生成随机的自由形式的画笔遮罩，并在以下数据集上评估GeoFill和其他基线。RealEstate10K[78]：它包含了从移动相机拍摄的室内和室外场景的多样化的YouTube视频序列。每个视频片段包含同一场景的各种视角。我们随机采样500个视频，并在每个视频序列中选择一对图像，帧差为25、50和75，构建三个不同的集合，分辨率为720×1280，同时通过检查匹配的稀疏特征的数量来自动过滤掉没有足够重叠内容的图像对。请注意，我们的过滤机制仅用于模拟用户行为并删除无用的图像对。实际上，我们相信用户可以通过视觉检查来简单地检查照片之间的重叠部分。MannequinChallenge[29]：这是一个具有挑战性的数据集，其中包含从手持相机拍摄的人物冻结姿势场景的视频序列。该数据集包含超过17万帧和约2,000个YouTube视频的相机姿势。由于冻结的人物姿势和丰富的背景物体，该数据集中的相机运动更加极端，场景复杂性更高。我们减小采样的帧差，以确保图像对之间有足够的重叠。与之前的数据集类似，我们随机采样3个子集，帧差为10、20和30，每个子集包含720×1280的500个图像对。真实用户提供的图像：我们还使用像TransFill一样的真实用户提供的图像来验证我们的方法的泛化能力和实用性。基线。除了与我们的工作直接相关的TransFill之外，我们还将我们的方法与几种不同类型的基线进行比较，以评估最终的修复性能。第一种类型是最先进的视频修复方法。17810图3：GeoFill与其他基线在用户提供的图像（前两行），RealEstate10K（中间两行）和MannequinChallenge数据集（最后两行）上的定性比较。0补全模型。OPN[39]通过时空注意力实现了高质量的修复结果。STTN[66]提出了优化时空对抗损失函数的方法。此外，我们还与ProFill [67]和CoModGAN[71]等最先进的单图像修复方法进行了比较。我们直接使用它们在Places2[76]上训练的预训练权重，因为它们在场景多样性方面比RealEstate10K更具训练能力。最后，我们还比较了一种基于两视图SfM的方法[72]，我们将其称为JointDP，通过使用密集对应估计的相对姿态和深度对源图像进行变形。为了确保比较的公平性，我们使用与GeoFill相同的深度预测器和渲染过程，同时保持其他所有设置与原始工作相同。实现细节。我们遵循TransFill提取SIFT特征[34]，并将其输入到OANet[68]中以拒绝异常值并建立对应关系。这种组合已经被证明非常稳健。我们的预训练单目深度预测器是DPT[43]。运行我们的方法不需要地面真实相机内参信息。我们将所有图像的固定相机内参参数设置为焦距750和主点为图像中心。附录材料中包含了使用不同焦距的消融研究。我们使用TransFill [79]的预训练CST模块，无需进行微调。0微调。该模块在MannequinChallenge和用户提供的图像上具有良好的泛化能力。我们使用PyTorch[40]实现了我们的流程，并选择DiffGrad[14]作为优化器，因为它具有快速收敛速度。在优化步骤中，我们使用恒定的学习率10^(-2)，最大迭代次数设置为10^4。损失权重λ1，λ2和λ3分别为10, 10,0.5。在由粗到细的优化策略中，金字塔级别数为4，从粗到细的每个级别的累积迭代次数分别为4×10^3，7×10^3，9×10^3，10^4。我们将基于孔洞的加权中的σ设置为192像素。在基于边缘的加权中，我们计算4个不同的Canny边缘图，并使用大小为4的卷积核对每个边缘图进行膨胀。在网格渲染中，边缘阈值ϵ_edge为4×10^(-2)。04.1. 定量结果0我们将我们的方法与其他基线进行定量比较的结果如表1所示。我们报告了RealEstate10K和MannequinChallenge数据集上的PSNR、SSIM和LPIPS[70]。单图像修复模型在具有较大尺度差异和较宽基线的图像对上竞争力不足。视频修复方法由于缺乏密集的时间信息和多个参考帧而表现不佳。JointDP基于光流，无法准确估计像相机姿态这样的参数，以正确对齐图像对。我们的方法表现优于TransFill，因为我们有更好的理解能力。JointDP [72]22.46 / 0.9469 / 0.101121.76 / 0.9457 / 0.106320.89 / 0.9423 / 0.112220.13 / 0.9346 / 0.108719.52 / 0.9290 / 0.119519.38 / 0.9315 / 0.1177OPN [39]28.41 / 0.9684 / 0.052527.80 / 0.9669 / 0.057026.91 / 0.9634 / 0.062425.63 / 0.9628 / 0.060524.92 / 0.9584 / 0.069824.84 / 0.9591 / 0.0702STTN [66]28.83 / 0.9696 / 0.071028.26 / 0.9697 / 0.072127.59 / 0.9680 / 0.075125.60 / 0.9623 / 0.080325.09 / 0.9602 / 0.086524.94 / 0.9613 / 0.0844ProFill [67]27.45 / 0.9642 / 0.077527.67 / 0.9654 / 0.075527.37 / 0.9639 / 0.076825.04 / 0.9589 / 0.080825.02 / 0.9582 / 0.083625.22 / 0.9599 / 0.0810CoModGAN [71]26.02 / 0.9594 / 0.070326.14 / 0.9607 / 0.068625.88 / 0.9596 / 0.069723.39 / 0.9504 / 0.077023.14 / 0.9486 / 0.080823.36 / 0.9503 / 0.0791TransFill [79]32.03 / 0.9764 / 0.046130.64 / 0.9732 / 0.054029.24 / 0.9694 / 0.060828.01 / 0.9680 / 0.056926.56 / 0.9628 / 0.068826.17 / 0.9632 / 0.0701✗✓✓31.190.97420.0533✓✗✓30.880.97340.0554✓✓✗31.230.97420.0532✓✗31.200.97400.0534✗31.120.97390.053917820表1：GeoFill与其他基线在RealEstate10K和MannequinChallenge上的定量比较。0RealEstate10K：PSNR ↑ / SSIM ↑ / LPIPS ↓ MannequinChallenge：PSNR ↑ / SSIM ↑ / LPIPS ↓0模型 FD=25 FD=50 FD=75 FD=10 FD=20 FD=300GeoFill (我们的方法) 32.57 / 0.9775 / 0.0467 31.47 / 0.9748 / 0.0525 30.43 / 0.9717 / 0.0581 28.85 / 0.9702 / 0.0553 27.72 / 0.9658 / 0.0652 27.44 / 0.9664 / 0.06650对于场景的3D结构的理解以及更好地利用深度估计。请注意，与RealEstate10K数据集相比，GeoFill在MannequinChallenge上的性能提升更高。TransFill依赖于融合模块来处理最终的孔洞填充所需的多个单应性，对于与训练数据不同的图像，它的鲁棒性较差。相反，GeoFill在修复过程中只有一个提案需要合并，这也大大减少了由于多个提案而产生的混合伪影。因此，我们的GeoFill在帧差异更大的图像对上具有鲁棒性和稳定性。04.2. 定性结果0图3显示了与其他基线算法在用户提供的图像、RealEstate10K和MannequinChallenge数据集上的视觉比较结果。JointDP利用估计的光流进行初始匹配，因此如果图像对的基线较宽，结果无法获得准确的深度和相机姿态。孔洞内的内容通常与目标图像不对齐。原始的OPN使用五个参考帧在帧之间进行更高效的非局部匹配，但是单个参考帧使结果在视觉上不太令人满意。ProFill无法利用参考图像的内容，而TransFill在孔洞区域内的对象占据多个深度平面时通常会出现混合伪影或内容不对齐的问题。然而，GeoFill通过使用单个提案来避免混合伪影，并通过理解相机姿态并从两个图像重建3D场景来对对象进行良好的对齐。04.3. 消融研究0在接下来的章节中，我们研究了每个优化损失函数和像素重要性权重图对最终结果的贡献。此外，我们还介绍了在没有CST的情况下，TransFill和GeoFill在具有更大孔洞的情况下的对齐精度的实验结果。除非另有说明，否则以下章节中的所有实验结果均针对RealEstate10KFD=50子集进行报告。我们还在补充材料中对RealEstate10K和ScanNet[11]上的联合深度姿态优化模块进行了更深入的分析，对我们系统流程中每个模块的计时、优化步骤的收敛准则以及更多可视化结果进行了分析。0表2：GeoFill联合优化阶段目标函数的消融研究。0照片特征负深度 PSNR ↑ SSIM ↑ LPIPS ↓0表3：像素重要性权重图 W 的消融研究。0孔洞宽度边缘宽度 PSNR ↑ SSIM ↑ LPIPS ↓0� � 30.95 0.9734 0.05520优化：目标函数。我们声称优化过程中使用的所有目标函数都有助于更高的感知和重建质量，如表2所示。将没有光度损失的GeoFill与没有特征对应损失的GeoFill进行比较，特征损失对性能的贡献最大。我们发现，仅使用光度损失可能会被局部纹理分散注意力并陷入局部最小值，从而在平均RGB误差上表现较低，但忽略了全局结构。然而，使用光度损失确实有助于改善对齐。最后，没有负深度惩罚的GeoFill仍然有性能下降，这表明负深度惩罚能够防止深度尺度或偏移估计不稳定的特殊情况。优化：像素重要性权重图。我们在表3中展示了在优化过程中使用不同组合像素重要性权重图的GeoFill结果。这表明在孔洞周围放置更高权重的孔洞距离加权W h可以实现更好的孔洞周围局部对齐。基于边缘的加权W e也通过匹配图像中的强边缘起到了帮助作用。使用均匀加权图导致最差的性能，表明加权图的有效性。性能与孔洞尺寸相关。这项消融研究旨在检验我们的方法在更困难的设置下与TransFill的性能。随着孔洞变大，不可避免地我们会有更少的匹配点，这使得 I s → t很难与 I t对齐。我们生成了不同平均笔画宽度（从90到210像素）的孔洞。如图4所示，GeoFill相对于TransFill的性能增益随着孔洞平均笔画宽度的增加而增加，直到孔洞平均笔画宽度达到180像素。随着孔洞尺寸的增大，孔洞中的内容复杂性也增加。换句话说，我们更有可能遇到越来越多的深度层、更复杂的物体布局以及由于较大孔洞中的相机平移而引起的遮挡机会。对于基于单应性的模型来说，这些问题更加困难，因此当孔洞较大时，GeoFill具有更大的优势。替代TransFill的初始对齐比较。我们采用了TransFill的CST模块来调整自动曝光、光照条件和潜在的残余对齐误差。在这个实验中，我们分析了直接使用对齐图像的性能，即对于两个模型都不使用CST。我们保留了TransFill使用的多个单应性，去除了CST模块，并保留了合并模块，以便TransFill可以合并其不同的区域。表4显示了GeoFill保持更好的性能，PSNR下降2.12，而TransFill在没有CST的情况下下降了4.62。这从实验上验证了GeoFill通过更好地利用深度比TransFill更准确的提出。每个样本的改进研究。这个消融实验旨在通过比较GeoFill与TransFill在每个单独样本上的性能来分解表1中的数据。我们对GeoFill相对于TransFill的每个图像的PSNR差异进行排序和绘制，如图5所示。具体而言，PSNR差异计算为GeoFillPSNR − TransFillPSNR，因此正的PSNR增益表示GeoFill更好。GeoFill在大多数样本上提高了性能，特别是在整个子集中约75.4%的样本上。此外，当GeoFill优于TransFill时，PSNR增益更大：高达3dB，而TransFill优于GeoFill时的PSNR损失较大。information from sensors, therefore, our pipeline may notwork well when the quality of feature matching points ispoor, e.g., matching points are inaccurate or too few. Underthese cases, our relative pose and triangulated points can beinaccurate, which may be hard for optimization to correct.Additionally, our pipeline is also sensitive to depth predic-tion quality: artifacts such as blurry depth discontinuitiesor wrong order of depth planes can lead to potential bad in-painting results. Future work might mitigate these problemsby jointly reasoning about monocular depth and the stereocues established by triangulation. In the optimization, weused a 3D reprojection based on forward warping becauseit is much faster than rendering a triangle mesh even thoughit does not fully remove hidden surfaces in the rare caseswhere a mesh occludes itself: this could be addressed infuture work by testing and pruning those splatted points.GeoFill utilizes the CST module to adjust auto exposureand lighting condition changes, which still suffers when thescene environment changes drastically, e.g., day to night,spring to fall. Future work could better address these by in-corporating specialized lighting estimation (e.g., [69]) andrelighting modules. One last limitation of GeoFill is th

下载后可阅读完整内容，剩余1页未读，立即下载