没有合适的资源?快使用搜索试试~ 我知道了~
电影和电视节目中小视差限制下的结构运动
lax compared to standard SfM datasets captured specificallyfor 3-D reconstruction (see Figure 1 for more details).This insufficient parallax is one of the key challenges [9]that limits the effectiveness of well-developed geometry-based SfM approaches [10, 2, 33, 1, 43, 28] that recovercamera motion and geometry based on the principle ofmotion-parallax. Shots with small motion-parallax are ill-conditioned for 3-D reconstruction as algebraic methodsfor two-view reconstruction are numerically unstable insuch situations [26].Conventional SfM pipelines (e.g.,COLMAP [33]) use various heuristics to handle small-parallax data, e.g., by using inlier ratio to decide the two-view motion type to prevent two-view reconstruction fromusing panoramic image pairs, and filtering out points withsmall triangulation angles.These heuristics however re-quire careful tuning and can fail completely when using datawhich has no image pairs with sufficient parallax.In contrast, learning-based approaches [17, 47, 40, 42]are able to handle data with small parallax more effectivelyas they can learn to predict depth and pose from large-scalelabelled datasets. However, as these methods do not incor-porate geometric-consistency constraints between images,159800电影和电视节目的深度引导稀疏结构运动0Sheng Liu *University at Buffalo0sliu66@buffalo.edu0Xiaohan Nie, Raffay HamidAmazon Prime Video0{nxiaohan, raffay}@amazon.com0摘要0现有的结构运动(SfM)方法在使用具有大视差的图像捕获的图像时,可以产生令人印象深刻的三维重建结果。然而,为了在电影和电视节目中创造引人入胜的视频内容,拍摄特定镜头时相机的移动量通常受到限制。由此产生的视频帧之间的小运动视差使得基于几何的SfM方法在电影和电视节目中不太有效。为了解决这个挑战,我们提出了一种简单而有效的方法,该方法使用从预训练网络获得的单帧深度先验来显著改进基于几何的SfM方法以适应小视差的情况。为此,我们首先使用检测到的关键点的深度估计来重建点云和相机姿态以进行初始的双视图重建。然后,在增量重建过程中,我们执行深度正则化优化来注册新图像并三角化新点。为了全面评估我们的方法,我们引入了一个新的数据集(StudioSfM),该数据集由一个专业的CG工作室手动注释的15个工作室制作的视频中的130个镜头和21K帧组成。我们证明了我们的方法:(a)显著提高了小视差设置下的三维重建质量,(b)不会对具有大视差的数据造成任何退化,(c)保持了基于几何的稀疏SfM的泛化能力和可扩展性。我们的数据集可以在https://github.com/amazon-research/small-baseline-camera-tracking获得。01. 引言0在电影和电视节目中,估计相机运动和三维场景几何是一个标准的视频制作任务。现有的三维场景重建的结构运动(SfM)方法在产生具有大视差的图像上产生高质量的结果[16,6, 36,34]。然而,在拍摄镜头时,为了创造引人入胜的观看体验,通常会限制相机的移动量。这经常导致视差不足。0* 本工作是作者在亚马逊实习期间完成的。0图1:视差分布比较:使用ETH3D[34]数据集绘制了StudioSfM的视差分布——StudioSfM是一个新的数据集,包含了来自15个电视剧集的130个手动标注镜头中的21K帧(有关数据和视差计算的详细信息请参见第4.1节)。StudioSfM的长尾分布显示,与标准SfM数据集相比,工作室制作的内容中小运动视差更为常见。159810图2:提出的流程-给定一组输入图像(步骤1),我们检测2D关键点并在帧间进行匹配,即对应搜索(步骤2-a),同时使用预训练网络获取它们的基于单帧的密集深度图(步骤2-b)。我们应用双线性插值从这些密集深度图中查找检测到的关键点的深度(步骤3)。我们使用检测到的2D关键点以及它们的深度先验来改进初始化(步骤4)和增量重建步骤(步骤5)。0它们的姿态和深度估计不如准确[19]。此外,这些方法的通用性严重依赖于用于训练的标记数据的规模,这可能是费时费力的。最近提出的混合方法[37, 38,19]通过使用学习的深度先验作为几何一致性的隐式约束,实现了比基于学习的方法更准确的结果。然而,这些方法不使用鲁棒估计器,因此它们严重依赖于所使用的光流的质量,这可能会对它们的鲁棒性产生不利影响。此外,这些方法需要大量的计算和内存资源,这使得它们无法扩展到更大的问题。主要贡献:为了解决这些挑战,我们提出了一种新颖的混合方法,结合了以下优势:(a)基于几何的SfM以实现高精度而无需额外的标记数据,(b)基于学习的SfM以有效处理具有不足视差的数据。如图2所示,我们的方法建立在标准的基于几何的SfM流水线之上,并通过利用从预训练深度网络获得的单帧深度先验来特别改进其初始化和增量重建步骤。具体来说:•我们直接利用预训练模型获得的单目深度而不是使用极线几何进行初始两视图重建,以准确恢复初始相机姿态和点云。•在增量重建步骤中,我们提出了一个深度先验正则化的目标函数,以能够准确地注册和三角化新的图像和点。0我们证明了我们的方法对于用于获取深度先验的各种预训练网络是稳健的,并通过最大程度地依赖其良好设计的实现(例如COLMAP[33])来保持基于几何的SfM流水线的通用性和可扩展性。为了全面评估我们的方法,我们收集了一个新的数据集(StudioSfM),其中包含来自15个电视剧的130个镜头和21K帧。地面真实相机姿态0点云是由专业人员使用商业CG软件手动创建的(详见第4.1节)。我们使用StudioSfM来证明我们的方法在小视差设置下比现有最先进的方法提供了更准确的相机姿态和场景几何,同时在具有大视差的标准SfM数据集[34]上不会造成任何退化,并保持了标准SfM流水线的通用性和可扩展性。02. 相关工作0a. 基于几何的SfM:基于几何的SfM [2, 33, 1, 43,28]方法在过去几十年中在鲁棒性、准确性、完整性和可扩展性方面取得了巨大的改进。这些方法中的大多数首先检测和匹配局部图像特征[24, 13, 32,7],然后使用极线几何估计两视图运动[14],然后使用束调整全局或增量重建3D场景[39]。最广泛使用的开源基于几何的SfM流水线之一是COLMAP[33],它经常被用作最先进的密集重建方法[25, 23,27]的初步步骤。然而,与大多数基于几何的方法一样,它需要具有足够大基线的图像。我们的方法改进了COLMAP[33],使其能够在电影和电视节目中常见的小视差设置下稳健工作。以前针对小运动视频的基于几何的SfM方法[46]简化了旋转矩阵,并使用参考图像的逆深度参数化束调整。[12]的工作与[46]进行了相同的简化和参数化,但假设相机内参是未知的,并在束调整中优化它们。这些工作只对具有非常小的意外运动的视频显示了改进的结果,并且不能推广到具有相对较大运动的数据,如电影和电视节目。与使用相机运动先验的[46, 12]不同,我们的方法使用场景几何先验159820对于窄基线数据和宽基线数据都具有鲁棒性。0b.基于学习的SfM:为了以端到端的方式联合估计运动和深度,[40]中的工作堆叠多个编码器-解码器网络进行迭代估计。为了提高姿态估计的鲁棒性,[42]中的工作构建了类似于深度成本体积[45]中用于立体匹配的姿态成本体积,以迭代预测相机姿态。与[40,42]依赖于训练的地面真值标签不同,我们的方法利用现成的预训练深度估计器,无需目标数据的标签。0c.混合SfM:混合方法尝试通过使用几何一致性约束来优化相机姿态和深度。[37]中的工作将深度表示为深度基础图的线性组合,并使用可微分梯度下降来通过对齐不同的深度特征来计算相机运动和深度。[38]中的工作使用密集光流构建密集对应关系,并在学习基于深度估计和基于优化的运动估计之间迭代。[19]中的工作通过允许深度作为样条线来优化重投影损失,用于低频对齐。深度滤波器用于高频对齐以恢复细节。在我们的方法中,我们不依赖光流,这使得我们的方法可以在视频和无序图像集上工作。0d.单目深度估计:深度网络的最新改进和大规模深度数据的可用性为单目深度估计的显著进展做出了贡献[18]。[11]中的工作使用单目视频以自监督的方式学习深度估计网络。[31]中的工作专注于使用多个目标不变性的多个数据集进行训练,这些目标不变性对深度尺度和范围是不变的。[4]中的工作将深度分为多个区间,每个区间的中心根据每个图像自适应地估计,并线性组合以预测最终的深度值。我们使用现成的预训练单目深度估计器为稀疏关键点生成深度先验。尽管单目深度估计在帧间不一致,但我们展示了在SfM流程中使用它们作为先验可以帮助重建过程收敛到更好的解决方案。03. 方法03.1. 增量式SfM回顾0由于我们的方法基于增量式SfM,为了完整起见,我们首先回顾标准的增量式SfM流程[33],它可以粗略地分为三个关键组成部分:(i)对应搜索,(ii)初始化和(iii)增量重建。我们在下面提供这些组成部分的详细信息。0a.对应搜索:对于给定的N个图像I中的每个图像I,提取其2-D关键点p∈R2和相应的基于外观的描述符,并使用它们来0使用基于关键点描述符的相似度度量,匹配所有图像对(Ia,Ib)∈I。使用鲁棒估计器(如RANSAC[8])对匹配的图像对进行鲁棒几何验证,以估计它们之间的几何变换。b.初始化:根据匹配图像对(Ia,Ib)中对应的2-D关键点的极线几何,执行双视图重建以估计初始相机姿态(Rinit,tinit)∈SE(3)和3-D点云P∈R3。请注意,良好的初始化对于增量式SfM流程至关重要,因为后续步骤可能无法从较差的初始化中恢复。为此,使用诸如关键点匹配数量、三角化角度和几何变换类型等启发式方法来选择可能导致高质量初始化的良好图像对[33]。c.增量重建:通过在以下三个步骤之间迭代,将剩余图像集中的新图像逐步纳入重建过程。i-图像配准:此步骤通过首先使用RANSAC[5]在2-D到3-D对应关系上解决透视n点(PnP)问题[3],然后通过最小化其重投影误差来优化新图像的姿态,将新图像注册到当前3-D场景中。ii-三角化:对新图像的场景点进行三角化,并将其添加到现有场景中。iii-束调整(BA):此步骤通过最小化当前注册图像的总重投影误差,共同优化相机姿态和3-D点云。在小视差设置下,初始化难以产生良好的初始双视图重建,因为极线几何不稳定,而增量重建由于大的三角化变化而趋向于产生糟糕的解决方案。现在我们展示了如何从预训练网络获得深度先验来使这两个步骤受益。请注意,我们不修改BA,因为我们改进的先前步骤已经提供了一个强大的起点,在BA中添加深度先验不会带来任何额外的收益。03.2. 寻找关键点深度0给定一个图像集,我们使用标准的COLMAP[33]流程进行2D关键点检测和匹配。此外,我们使用预训练的单目深度估计器来预测每个图像Ii的密集深度图Di。从Di中使用双线性插值提取Ii中关键点pi的深度,记为Di[pi]。我们在初始化步骤中将这个关键点深度结合起来,以获得更准确的初始相机姿态和三维点云估计,并通过正则化图像配准和三角测量的优化过程来引导增量重建朝着更好的解决方案。对于大规模重建,使用稀疏关键点深度而不是密集深度图是为了保持计算和内存效率。我们凭经验证明,我们的方法对深度估计模型的选择是不受影响的。Pa = Da[pa] K−1ah(pa)paa(1)R∗i , t∗i , γi, βi = arg minR,t,γ,β�pi∈ϕiEPR(pi)+λEDC(pi, γi, βi)(2)P∗i = arg minPnewi159830深度估计模型的选择(见第4.6节)不同。03.3. 初始化0与COLMAP[33]中将初始图像对(Ia,Ib)之间的2D到2D对应关系计算本质矩阵,并将其分解为旋转和平移矩阵的方法不同,我们将关键点深度信息纳入初始化步骤,将其形式化为透视n点(PnP)问题。具体而言,我们首先通过将Ia中的2D关键点投影到3D空间中来创建一个初始点云Pa,如下所示:0其中Da[pa]是pa的深度,Ka∈R3×3是捕获Ia的相机的内部矩阵,h(∙)将欧几里得坐标转换为齐次坐标,Ta是Ia中的2D关键点集合。这给我们提供了一个由Ia中关键点创建的初始3D点云。然后,通过Ib中的2D关键点与点云中对应的3D点之间的几何关系(2D到3D对应关系)估计Ia和Ib之间的相对姿态,这正是PnP问题的目标。与使用具有极线几何的2D到2D对应关系估计相对姿态不稳定的方法不同,使用具有PnP方法的2D到3D对应关系使得我们的初始化方法对小基线更加稳健,因为PnP自然倾向于小基线数据。请注意,与COLMAP[33]不同,它通过考虑三角测量角度和匹配关键点数量来选择初始图像对,我们选择具有最大匹配关键点数和有效深度的图像对。我们认为除了0或无穷大之外的所有值都是有效的深度。由于我们接受范围较大的深度,使用更多的匹配关键点来生成具有更大场景覆盖范围的初始点云,使得后续的重建步骤更加稳健和准确。03.4. 深度正则化优化0初始化步骤后跟着:(a)图像配准,将新图像注册到现有场景中;(b)三角测量,对新点进行三角测量。我们定义了一种新颖的深度正则化目标来改进这两个步骤。我们的方法的直觉在图3中说明,其详细说明如下。a.图像配准:我们遵循COLMAP[33]中使用的过程来选择下一个图像Ii,并使用RANSAC[5]使用PnP问题的形式化来估计其初始相机姿态。我们通过最小化以下目标函数进一步优化这个初始相机姿态:0图3:深度正则化优化 -除了通常使用的重投影误差外,我们还使用深度一致性误差作为我们的图像配准(方程2)和三角测量(方程5)的正则化器进行优化。0这里,ϕ i是从初始姿态估计的RANSAC中获得的内点关键点集合,E PR是重投影损失,E DC是深度一致性损失。λ是平衡两个损失的权重。E PR 定义为:0E PR ( p i ) = || Π( R i P i + t i ) - p i || (3)0其中Π表示从3D点到图像平面的投影。同样,E DC定义为:0E DC ( p i , γ i , β 0p i ∈ ϕ ( i ) || [ R i P i + t i ] z - γ i D i [p i ] - β i ||0(4)其中D i [ p i ]是关键点p i 的深度,[x]z ∈ R (x ∈ R 3)是3D点x的第三个元素。γ i 和β i 是用于将I i的深度先验与从3D点投影的深度对齐的比例和偏移。0b. 三角测量:一旦图像 I i注册成功,新观察到的场景点通过三角测量添加到现有的点云中。我们首先使用DLT [14]和RANSAC[5]估计初始的3D位置,并使用以下目标函数进行优化:0p j ∈ N ( P new i ) E PR ( p j ) + λ E DC (p j , γ i , β i ) (5)0其中P new i是在I i 中观察到的新的3D点集合,N ( P new i)是对应于P new i 的2D关键点集合,E PR 和E DC是如上所定义的重投影和深度一致性误差。γ i 和β i是从图像配准中计算得到的,并在此处保持固定。请注意,仅基于重投影损失进行三角测量得到的3D点的方差较大,当三角测量角度较小时[21]。我们的目标函数通过使用深度一致性误差来规范化3D点的位置,同时保持重投影误差较低,以解决这个挑战。To evaluate camera pose, we compute three commonly usedmetrics: absolute trajectory error (ATE), relative pose errorfor translation (T-RPE) and rotation (R-RPE). We refer tothe work of [29] for detailed explanation of these metrics.To evaluate 3-D point cloud, we project point cloud to eachframe using estimated camera-pose and measure the accu-4.5.1StudioSfM◦)RCVD [19]4.228.05.017.54.423.1DfUSMC [12]22.145.823.843.014.525.7DeepV2D [38]15.243.85.619.24.615.8COLMAP [33]20.049.623.145.825.846.7COLMAP++24.759.134.360.139.766.01598404. 实验04.1. 数据集0首先介绍我们在实验中使用的数据集。a.StudioSfM:为了对我们的方法在工作室制作的视频内容上进行全面的比较评估,我们收集了一个名为StudioSfM的新数据集,其中包含来自15个电视剧集的130个镜头,共计21K帧。对于每个完整的电视剧集,我们首先运行镜头分割[35]将其分割为一组组成镜头,然后以均匀的方式稀疏采样这些镜头。对于每个采样的镜头,我们让专业的视觉特效艺术家通过商业CG软件手动跟踪高质量特征、识别共面约束并调整焦距,生成地面真实的相机姿态和3D点云。我们删除了由于诸如严重运动模糊和完全静态相机等因素而无法进行注释的镜头。为了突出工作室制作的视频内容中小基线的普遍性,我们将StudioSfM数据集与标准的大规模SfM数据集ETH3D[34]的视差分布进行了比较(如图1所示)。我们计算视差为相机运动的最大平移与所有相机到3D点云的中位距离之比。图1显示,StudioSfM的大多数视频具有较小的视差,因为电影和电视节目中的镜头往往具有较少的相机运动,以创造出一种引人入胜的观看体验。相比之下,ETH3D的视差要大得多,因为它是专门为使用标准方法进行3D重建而捕捉的。b.ETH3D:为了证明我们的方法对具有大视差数据的准确性没有损失,我们在ETH3D[34]上进行了实验,这是一个标准的SfM数据集,包含两个类别:(a)高分辨率多视图,共13个场景;(b)低分辨率多视图,共5个场景。数据集提供了来自激光扫描的精确相机姿态和密集点云。04.2. 实现细节0我们的方法基于COLMAP[33]的代码库。我们使用DPT-large[30]作为默认的深度估计器来生成深度先验。在§4.6中分析了使用不同深度模型对我们方法的影响。我们将输入图像的高度调整为384,同时保持原始的宽高比。使用最近邻插值将密集深度图调整为原始图像大小。深度正则化优化的权重λ始终保持固定为6。使用Mask-RCNN[15]创建人体的二值掩码,作为所有比较方法的输入。04.3. 基准0与先前方法[ 19 , 20 ]提供的比较不同,这些方法仅在具有小相机运动的视频上使用原始COLMAP [ 33]。我们调整了其超参数以适应小视差设置,使其在小视差数据上更不容易失败,以便进行更公平的比较。我们将这个版本的COLMAP [ 33 ]称为COLMAP++,并将我们的方法与原始COLMAP[ 33 ]、COLMAP++、DeepV 2 D [ 38]、RCVD [ 19 ]和DfUSMC [ 12 ]进行比较。0我们将其称为COLMAP++,并将我们的方法与原始COLMAP[ 33 ]、COLMAP++、DeepV 2 D [ 38 ]、RCVD [ 19]和DfUSMC [ 12]进行比较,以使其在小视差数据上更不容易失败,以便进行更公平的比较。04.4. 评估指标0其中y i和y � i分别是估计的深度和地面真实深度,θ = | y i− y � i |是绝对深度。04.5. 结果0a.相机姿态评估:我们首先在StudioSfM数据集上评估估计的相机姿态的质量。在计算指标之前,预测的相机姿态与地面真实相机姿态进行相似变换对齐。图4显示了召回与三个误差指标的关系图,表1显示了每个曲线的曲线下面积(AUC)。我们的方法在所有三个指标上明显优于其他方法。COLMAP++在小视差数据集上的表现比原始COLMAP [ 33]好得多,这表明调整COLMAP++以适应小视差数据集的重要性。DfUSMC [ 12]在StudioSfM上表现不佳,这表明他们关于相机运动的假设不能推广到我们的数据。DeepV2D [ 38]在StudioSfM上的性能也较低,可能是由于他们缺乏异常值处理机制。为了进一步阐明我们的方法在小视差设置下的优势,我们按照视差降序对StudioSfM数据中的视频进行排序,并将前30%的数据作为大视差集,后30%的数据作为小视差集。我们将我们估计的相机姿态与COLMAP++在这两个集合上进行比较。图5显示了我们的方法在小视差数据上明显更好的性能。0方法 ATE AUC T-RPE AUC R-RPE AUC0我们的方法 31.8 +7.1 65.3 +6.2 41.6 +7.3 69.8 +9.7 48.7 +9.0 74.8 +8.80表1:使用AUC在StudioSfM上评估相机姿态。显示了我们考虑的三个指标的召回曲线AUC。159850图4:在StudioSfM上评估相机姿态-图显示了多种比较方法在ATE(绝对轨迹误差)、T-RPE(平移相对姿态误差)和R-RPE(旋转相对姿态误差)方面的召回曲线。0图5:使用StudioSfM进行相机姿态估计:(a)大视差集和(b)小视差集。我们的方法在小视差数据上比COLMAP++有显著改进。0使用深度先验在基于几何的小视差SfM中突出了其重要性。0b.点云评估:为了评估估计的点云质量,我们首先使用估计的相机姿态将点云投影到每个帧上,然后将投影点的深度与地面真实深度进行比较。除了像DeepV2D [ 38]那样使用相对深度误差计算准确性之外,我们还使用绝对深度误差进行比较,因为我们的地面真实点云使用真实世界尺度进行注释。表2显示了我们的方法在相对深度误差和绝对深度误差上优于所有其他方法。直接应用DPT-large [ 30]不能产生准确的深度,尽管它们在视觉上看起来不错。相反,我们使用DPT-large [ 30]的输出作为基于几何的SfM中的深度先验,大大提高了估计深度的质量。0方法 相对深度准确性(%) 绝对深度准确性(%)0δ < 1.25 δ < 1.25 2 δ < 1.25 3 θ < 5cm θ < 10cm θ < 25cm0DPT-large � [30] 33.5 53.6 64.9 3.8 7.4 14.50RCVD [19] 43.7 66.5 79.4 5.2 9.1 18.70DfUSMC [12] 27.6 39.6 46.4 2.4 4.5 8.90DeepV2D [38] 63.4 80.1 87.5 8.9 15.5 28.80COLMAP [33] 50.8 55.1 56.9 20.7 27.3 38.30COLMAP++ 72.9 81.4 85.0 22.8 32.6 50.60Ours 80.0 86.0 89.3 27.1 39.0 57.30表2:在StudioSfM上进行深度估计的评估 -这里使用相对深度和绝对深度来衡量召回率。DPT-large[30]的结果在这里作为参考。0方法 ATE AUC T-RPE AUC R-RPE AUC00.2 (cm) 2.0 (cm) 0.1 (cm) 0.5 (cm) 0.02 (°) 0.1 (°)0高分辨率多视图0COLMAP [33] 95.7 99.4 96.7 98.7 27.2 70.60Ours 99.5 99.9 97.1 99.1 27.7 69.80低分辨率多视图0COLMAP [33] 18.6 74.3 65.8 92.5 0.5 7.50Ours 42.1 88.8 86.4 96.9 0.4 14.80表3:使用AUC评估ETH3D的两个类别的相机位姿 -我们报告了每个度量的AUC。我们的方法在高分辨率多视图类别的所有度量上与COLMAP的结果相当,并且在低分辨率多视图类别的大多数度量上优于COLMAP。04.5.2 ETH3D0为了证明我们的方法在标准SfM数据集上的有效性,我们在ETH3D[34]的两个类别上进行评估,其中运动视差明显大于StudioSfM。我们将我们的方法与已经针对大视差进行调优的原始COLMAP[33]进行比较。相机位姿比较结果如表3所示。在高分辨率多视图类别上,COLMAP[33]和我们的方法都取得了令人印象深刻的性能,而我们的方法仍然能够略微优于COLMAP[33]。我们在低分辨率多视图类别上相对于COLMAP[33]的明显增益表明我们的方法对低分辨率图像比COLMAP[33]更具鲁棒性。使用高分辨率多视图类别进行估计深度的比较如下表所示。αATE AUCT-RPE AUCR-RPE AUC0.2 (cm)2.0 (cm)0.1 (cm)0.5 (cm)0.02 (◦)0.1 (◦)0.031.865.341.669.848.774.80.131.163.939.467.647.173.00.230.362.839.267.547.073.50.428.562.738.567.044.671.9159860方法 相对深度准确性(%) 绝对深度准确性(%)0δ < 1.05 δ < 1.05 2 δ < 1.05 3 θ < 1cm θ < 2cm θ < 5cm0COLMAP [33] 96.9 98.1 98.5 58.7 72.9 86.00Ours 96.8 98.0 98.4 61.2 75.7 88.10表4:在ETH3D高分辨率多视图类别上进行深度估计的评估 -这里使用相对深度和绝对深度来衡量准确性。0表4中,我们实现了比COLMAP[33]更好的绝对深度准确性。我们在ETH3D上的整体表现更好,这表明我们的方法在大视差数据上没有任何退化,同时在小视差设置下提供了显著的增益。04.6.消融研究0a.方法变体:我们在StudioSfM数据集上将我们的方法的几个变体与COLMAP++进行比较。图6比较了COLMAP++、我们仅改进初始化的方法(仅初始化)、我们仅深度正则化优化的方法(仅优化)和我们的完整方法(完整)在ATE和R-RPE的召回曲线上的表现。我们可以看到,我们提出的使用关键点深度先验的初始化方法相比COLMAP++有了显著的改进,这表明初始化对于SfM流程收敛到一个好的解决方案至关重要。通过改进的初始化和深度正则化优化,我们的完整方法表现最好。b.深度估计器:为了评估我们的方法对深度估计器的选择的鲁棒性,我们使用几个基于不同网络架构和训练数据集的预训练深度估计模型来评估相机位姿估计。具体来说,我们比较了五个单目深度估计模型,包括为移动设备设计的MiDaSsmall [31],基于Transformers [41]的DPT-hybrid[30]和DPT-large[30],用于单目深度估计的最新方法AdaBins[4]以及专注于人体深度估计的MC[22]。图7显示,我们的方法在使用任何五个不同的预训练深度估计模型提供的深度先验时,都明显优于COLMAP++。这些深度估计器之间的性能变化很小,表明我们的方法不依赖于特定的深度估计器,对不同的网络架构和训练数据集具有鲁棒性。c.深度噪声:除了评估使用不同深度估计器的效果外,我们还测试了我们的方法在不同数量的合成噪声下的鲁棒性。对于每个关键点深度d,我们添加具有0均值和α∙d标准差的随机高斯噪声,其中α的值不同。如表5所示,我们的方法在最大添加噪声水平为0.4时的性能下降仅为5%,这表明我们的流程可以容忍相当大的估计深度先验误差。0图6:StudioSfM消融研究-绘制了我们方法的不同变体的平移误差和相对旋转误差的召回率:“oursfull”-我们的完整方法,“initalizationonly”-我们的方法仅改进初始化,“optimizationonly”-我们的方法仅深度正则化优化。0图7:StudioSfM深度估计器消融研究-绘制了我们的方法使用不同预训练单目深度估计器的ATE和R-RPE的召回率。0表5:相机姿态估计的深度噪声分析-.对每个具有深度d的关键点添加均值为0,方差为α∙d的高斯噪声。我们的方法的性能下降仅在α为0.4时为5%,表明我们的方法对估计深度先验中的错误具有鲁棒性。04.7. 定性评估0a.StudioSfM:我们使用StudioSfM中的五个示例定性地比较了我们的方法与其他方法。为了与RCVD[19]进行比较,我们使用他们估计的深度图像来可视化点云的深度。示例1-4显示了COLMAP++的一个常见错误,即与我们的方法不同,点之间的相对深度是不正确的(例如,在示例2中,窗外的建筑物被估计为比房间里的桌子更近)。同样,RCVD[19]估计的相机运动往往有较大的误差,如示例2-5所示。COLMAP++和我们的方法都能在示例5中实现准确的重建,因为视差足够大。159870图8:StudioSfM数据集的定性结果-颜色可视化的关键点深度从红色(近)到蓝色(远),相机运动可视化为红色锥体的轨迹。第一列显示图像和地面真实相机运动,其他列显示不同方法的结果。0然而,即使运动视差很大,RCVD[19]仍然对该示例产生了糟糕的结果。0b.LVU数据集:我们现在展示我们的方法和COLMAP++在LVU数据集[44]的一个子集上的定性结果,该数据集由电影视频剪辑组成。我们从类别“场景”的测试集中选择了53个镜头,这些镜头中动态物体较少,运动模糊较小。由于没有提供地面真值,我们只能通过可视化相机姿态和点云来评估结果。在选择的53个镜头中,我们没有找到任何一个镜头,其中COLMAP++的结果明显优于我们的结果。图9显示了5个示例的结果,展示了我们的方法产生的更高质量的结果。最后一行显示了一个示例,其中我们的方法产生了与COLMAP++相似的错误。这是因为该示例的初始图像对的估计深度图[30]对我们的方法有效地引导后续重建过程到更好的解决方案来说太错误了。0图9:LVU数据集[44]的定性结果-深度使用红色(近)到蓝色(远)进行可视化。第一列显示输入图像及其深度,而第二列和第三列显示COLMAP++和我们的方法的结果。05. 结论0我们提出了一种简单而有效的SfM方法,利用预训练网络获得的单目深度来改进增量式SfM流程[33]。使用现有和新收集的数据集的实验证明,我们的方法显著提高了小视差数据的重建质量,同时对各种预训练深度网络具有鲁棒性。我们的方法可以轻松与COLMAP[33]集成,未来我们计划将其用作稠密重建和工作室制作内容的新视图合成的初始步骤。159880参考文献0[1] MapillaryAB。Opensfm-开源结构运动管道。https://github.com/mapillary/OpenSfM,2019年。0[2] Sameer Agarwal,Noah Snavely,Ian Simon,Steven M.Seitz和RichardSzeliski。一天内建造罗马。国际计算机视觉会议(ICCV),2009年。0[3] Alex MAndrew。计算机视觉中的多视图几何。Kybernetes,2001年。0[4] Shariq Farooq Bhat,Ibraheem Alhashim和PeterWonka。Adabins:使用自适应箱进行深度估计。在IEEE/CVF计算机视觉和模式识别会议(CVPR)中,2021年。0[5] Ondˇrej Chum,Jiˇrí Matas和JosefKittler。局部优化的RANSAC。DAGM-Symposium,2003年。0[6] Angela Dai,Angel X. Chang,Manolis Savva,MaciejHalber,Thomas Funkhouser和MatthiasNießner。Scannet:室内场景的丰富注释的3D重建。在计算机视觉和模式识别(CVPR)的IEEE会议中,2017年。0[7] Daniel DeTone,Tomasz Malisiewicz和AndrewRabinovich。Superpoint:自监督兴趣点检测和描述。CVPR深度学习研讨会,2018年。0[8] Martin A. Fischler和Robert C.Bolles。随机样本一致性:模型拟合的范例及其在图像分析和自动制图中的应用。1981年。0[9] Y. Furukawa和C.Hernandez。多视图立体视觉:教程。计算机图形学和视觉基金会与趋势,2015年。0[10] Yasutaka Furukawa和JeanPonce。准确、密集和稳健的多视图立体视觉。IEEE模式分析与机器智能交易,2010年。0[11] Clement Godard,Oisin Mac Aodha,MichaelFirman和GabrielBrostow。深入研究自监督单目深度估计。国际计算机视觉会议(ICCV),2019年。0[12] Hyowon Ha,Sunghoon Im,Jaesik Park,Hae-GonJeon和In SoKweon。通过未校准的小运动剪辑获得高质量的深度。在IEEE/CVF计算机视觉和模式识别会议(CVPR)中,2016年。0[13] Chris Harris和MikeStephens。组合角点和边缘检测器。第4届Alvey VisionConference论文集,1988年。0[14] Richard Hartley和AndrewZisserman。多视图几何。计算机视觉。剑桥大学出版社,2004年。0[15] Kaiming He,Georgia Gkioxari,Piotr Dollár和Ross Girshick。Maskr-cnn。在2017年IEEE国际计算机视觉会议(ICCV)上,页码2980-2988,2017年。0[16] Yuhe Jin,Dmytro Mishkin,Anastasiia Mishchuk,JiriMatas,Pascal Fua,Kwang Moo Yi和Edua
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功