虚拟对应：恢复极端视角下相机与场景的空间关系

143 浏览量更新于2023-10-25 收藏 18.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

159240虚拟对应：以人类作为极端视角几何的线索0Wei-Chiu Ma 1,4 Anqi Joyce Yang 2,4,5 Shenlong Wang 3 Raquel Urtasun 2,4,5 Antonio Torralba 103 伊利诺伊大学香槟分校 4 Waabi 5 Vector研究所0图1.你能告诉这些匹配像素之间的关系吗？最左边的图像中的头像素和脸像素在语义和外观上完全不同，然而我们仍然可以将它们关联起来进行三维推理。为什么，以及如何做到这一点？在本文中，我们提出了一个新颖的概念，即建立像素之间的几何关系，即使它们在语义上或视觉上并不相似。有关汽车的示例，请参见图11。0摘要0恢复相机和场景的空间布局0从极端视角图像中恢复场景的几何是计算机视觉中长期存在的挑战。流行的三维重建算法通常采用图像匹配范式，并假设场景的一部分在图像之间是共视的，当输入之间几乎没有重叠时，性能较差。相比之下，人类可以通过对形状的先验知识，将一个图像中的可见部分与另一个图像中的相应不可见部分关联起来。受到这一事实的启发，我们提出了一个称为虚拟对应（VCs）的新概念。VCs是来自两个图像的两个像素，它们的相机射线在三维空间中相交。与经典的对应关系类似，VCs符合极线几何；与经典的对应关系不同，VCs不需要在视图之间共视。因此，即使图像没有重叠，也可以建立和利用VCs。我们介绍了一种基于场景中的人类来寻找虚拟对应的方法。我们展示了如何将VCs与经典的束调整无缝集成，以恢复极端视角下的相机姿态。实验证明，我们的方法在具有挑战性的场景中明显优于最先进的相机姿态估计方法，并且在传统的密集捕捉设置中具有可比性。我们的方法还释放了多视图立体重建和极端视角场景下的新视图合成等多个下游任务的潜力。01 项目页面：https://people.csail.mit.edu/0weichium/virtual-correspondence/01. 引言0极线几何和对应估计是0是主流三维重建系统的两个关键点。当给定一组RGB图像作为输入时，经典的三维流水线[34,53]首先通过像素级视觉特征在图像之间识别共视的三维点，然后恢复相机之间的空间关系。这种“黄金标准”框架在实践中取得了巨大的成功，并衍生出了机器人、增强现实、虚拟现实等众多应用。然而，对于对应关系的依赖使人们思考：如果输入图像几乎没有重叠，这种方法还能工作吗？当场景中几乎没有共视的三维点时，这种方法是否仍然有效（见图1）？0初步考虑的答案是否定的。主流的对应关系0密集估计器专注于通过匹配视觉特征来找到描述场景中相同的、共视的三维点的像素对。如果图像之间的视点差异极大，像素将本质上不同，无法匹配，导致当前的三维系统无法正常工作。相比之下，人类可以确定两张照片在场景中的拍摄位置，尽管视点变化很大。这种卓越的能力来自于我们对底层几何的先验知识，它帮助我们在图像之间匹配像素，即使它们的确切对应在另一张图像中被遮挡或不可见。例如，我们知道人体的前后应该是什么样子的。因此，如果我们在一张图像中看到一个人脸，在另一张图像中看到一个头的背面，我们可以轻松地将它们关联起来，并推断出两个相机大约相隔180度。本文的目的是赋予三维系统类似的能力。0为了实现这个目标，我们首先提出以下问题：159250我们是否必须依赖描述相同3D点的像素来恢复相机姿态2？尽管这样的（隐含的）前提似乎为现有的3D重建算法奠定了基础，但正如我们将在第3节中所示，答案是否定的。我们的关键观察是，对于相交于3D的任意像素，极线几何成立。因此，只要能够识别出这些像素，就可以利用它们来恢复相对相机姿态，而不管这些像素在语义上或视觉上是否相似。这种解释尤其令人兴奋，因为它允许人们超越图像空间，在极限视角中建立像素之间的几何关系。0不幸的是，确定两条相机射线是否相交是一个困难的问题。0在3D中相交通常需要事先知道相机姿态，使整个过程成为一个先有鸡还是先有蛋的问题。我们的关键思想是利用场景中前景对象的先验知识来打破这个循环。具体来说，我们利用人类，可以说是图像中最常见、最显著的“对象”之一。考虑图1中的图像。如果系统具有关于人类形状和姿势的先验知识，它将知道从最左边的图像中穿过人类背部的射线将在其外部的胸部区域与之相交。此外，可以在另一幅图像中观察到相交的胸部像素。因此，我们可以轻松地找到一对对应于两条相交相机射线的像素。请注意，与经典对应不同，这两个像素不描述相同的3D点，因此无法通过视觉相似性找到它们。由于我们通过虚构一个3D形状来建立几何连接，我们称之为虚拟对应（VCs）。0在这个灵感的基础上，我们首先定义虚拟对应关系。0对应关系，并提出一种从包含人类的图像中推导它们的方法。然后，我们展示了如何将VC与经典的束调整算法无缝集成，从而得到一个广义的运动结构（S fM）框架，可以应用于传统设置和极限视角场景。我们在CMU Panoptic数据集[40, 42]、MannequinChallenge数据集[51]和多个具有挑战性的野外图像上评估了我们方法的有效性。我们的方法在具有挑战性的极限视角场景中明显优于现有技术，在传统的、密集重叠的设置中具有可比性。重要的是，我们从极限视角估计的姿势释放了多个下游应用的潜力，例如从多视图立体重建和在具有挑战性的场景中合成新视图。0总之，我们的贡献如下：1.我们提出了虚拟对应关系，这是一个新颖的概念。0用于3D重建算法，并建立其与现有对应关系的几何联系。02. 我们开发了一种从图像中估计VC的方法。0与人类合作，并展示如何将它们整合到02我们暂时忽略其他原始物体，如线条或平面。0无法建立对应关系0当场景重叠很小时0经典对应0当场景可见时0重叠区域较大0无论视角如何，都可以使用。语义、外观可能不同。0虚拟对应0图2. 经典对应与虚拟对应。0现有的3D框架。新框架可以应用于各种场景，当没有找到VC时，可以减少到经典的S f M。03. 我们利用估计的相机姿态进行多个应用。0我们的方法在下游任务中取得了显著的效果，并在实证中展示了我们的方法使得原本不可行的极端视角场景成为可能。0识别在多个图像中是同一个3D点的投影像素[34,56]。这个任务几十年来一直是各种计算机视觉问题的基石，因为像素级的关联可以有效地恢复世界的结构和运动[8, 35,53, 67]。流行的方法专注于手工设计的[7, 13, 50, 55, 65,77]或学习的[20, 23, 60,81-84]鲁棒的视觉特征，可以在不同的场景中将一个像素与其他像素区分开来。虽然取得了令人印象深刻的性能[66,74]，但是当输入图像之间几乎没有重叠时，这些方法的表现不佳，因为几乎没有共视的三维点。另一方面，语义对应估计[16, 32, 33, 37, 46, 94,95]专注于检测具有特定语义（例如人脸关键点）的像素。在领域知识的帮助下，它们通常对视点、外观甚至遮挡[14,36]更加鲁棒。不幸的是，它们仍然需要一组语义关键点在多视图图像中共视，以实现3D重建。相比之下，我们的新颖虚拟对应关系没有这些约束。虚拟对应关系可以是不同的3D点的投影，可以具有完全不同的外观和语义（例如，胸部像素与背部像素）。这使得我们可以在输入图像没有共视的3D点的情况下建立像素之间的几何关系。0对于一组重叠很少或不重叠的RGB（D）图像，估计相对3D姿态引起了广泛的兴趣[12, 39, 64, 69,88]。与经典的小基线或大基线设置不同，这个任务的视点变化更加极端，很少有共视区域，使得传统的基于匹配的方法不适用。为了解决这个挑战，研究人员提出了直接用深度神经网络预测变换[12, 15]，或采用幻觉-匹配范式[6, 29, 64,88, 90]。我们的工作3D human estimation:Our work is also related to 3Dmostly focus on the quality of the reconstructed shape, weattempt to recover accurate camera poses with human shapepriors. More recently, researchers have exploited humankeypoints to reﬁne camera poses [22,63], but by virtue ofVCs, our method is more ﬂexible and does not require thesame keypoints to be co-visible across views. As we willshow in Sec. 3.3, our bundle adjustment formulation is asuperset of theirs. Our work also shares similar insights withhuman silhouette matching [70, 71], since we both do notrely on appearance matching to establish correspondences,allowing us to generalize to extreme-view setting. However,there exist several differences: First, while they require videosequences to constrain the solution space, a single image pairsufﬁce for us. Second, they capitalize on sufﬁcient motion ofthe object over the space for matching, whereas we exploitdeep shape priors to estimate the correspondences. Third,their frontier points are still co-visible across cameras, yetour VCs may correspond to completely different 3D points.159260输入图像0（1）预测3D形状和姿态（2）投射射线并记录所有的点0相交点0（3）找到相交点0在另一幅图像中可见0前视图后视图0图3.流程。我们首先从左图像预测篮球运动员的3D形状和姿态。然后我们投射射线并记录它所击中的所有点，即肚脐和背部。虽然这两个图像几乎没有重叠，但右图像确实观察到了运动员的背部。因此，我们可以确定这两个像素的射线在3D上相交，并且是虚拟对应关系。我们也对右图像进行同样的处理。0我们的工作属于幻觉范式的广泛范畴，因为我们从幻觉的人体形状先验中得出虚拟对应关系，并将其与极线几何相结合。我们采用像素级的对应关系表示，与现有的3D重建算法无缝集成，并且可以自然地扩展到多视图设置。相比之下，以前的方法只考虑两个帧[39, 64, 88,90]，因为定制的匹配和优化步骤使它们难以轻松扩展。0S f M算法的目标[2, 8, 17, 27, 62, 76, 78,79]是恢复场景的相机姿态和（稀疏的）三维几何。现有的Sf M系统[68, 72, 73,85]在图像密集且有大量重叠时取得了巨大成功，但在输入视图稀疏且重叠很少的情况下，它们的性能大大下降。为了缓解这个问题，研究人员试图利用运动模式[4, 5,75]或对象的语义关键点[22,86]来辅助重建。然而，它们需要连续的帧序列作为输入（具有静态相机）或者要求相同的关键点在所有视图中可见，这在很大程度上限制了它们的适用性。相比之下，我们的虚拟对应关系更加灵活：虽然我们的虚拟对应关系也是从对象（具体来说是人）中得出的，但对应的像素可以具有完全不同的语义和外观。这使得我们可以建立匹配，即使输入图像没有共视的三维点。我们的方法也与非刚性S fM算法有类似的见解，它们利用形状字典（即先验）来约束解空间[3, 11, 18, 19, 38, 48,80]。然而，与这些方法不同的是，我们不需要事先给出2D对应关系。相反，我们利用形状先验在传统上没有对应关系的视图之间建立虚拟对应关系。正如我们将在实验部分展示的那样，虚拟对应关系为一系列可能性打开了大门，并扩大了S f M的适用领域。03. 方法0我们的目标是为现有的3D系统赋予能力0即使图像之间几乎没有重叠，也可以通过几何方式推理和关联图像。我们希望设计一种方法，可以与现有的3D重建框架无缝集成，使得新模型可以应用于传统设置和极端设置。为了实现这个目标，我们引入了一个称为虚拟对应（VC）的新概念。VCs是指两个像素的相机射线在3D空间中相交。然而，与经典的对应不同，它们不需要描述相同的3D点，并且可以具有完全不同的语义和外观。这使得VCs更加灵活，并且即使图像之间几乎没有重叠，也可以建立VCs。重要的是，VCs符合极线几何，并且可以与现有的3D系统自然地结合。我们通过正式定义VCs并讨论它们与现有对应的关系来展开本节。然后我们提出了一种通过人体形状先验来估计VCs的方法。最后，我们将VCs纳入当前的SfM公式中，得到一个更加通用的框架。为简单起见，我们假设只有两个相机，但是这些概念和方法可以轻松地扩展到多个相机。vsvideo frame index+rp1(d1) = rp2(d2).(1)ferent 3D points in the scene. VCs can thus have differentappearances and semantics, and even describe completelydifferent parts of the scene. We show an example in Fig.2 (right) where the pixels in the left image observe the legwhile their VCs in the right see the back of the bunny. Werefer the readers to supp. material for more illustrations.epipolar constraints — the two intersecting rays form anepipolar plane on which the VCs and camera origins lie.This allows us to exploit classic geometric algorithms to es-tablish connections among non-overlapping images, greatlyexpanding the applicable domains of existing 3D algorithms.3.2. Exploiting Humans for VC Estimationexploit shape priors for virtual correspondence estimation.We focus on humans, the most common “objects” in images.to predict the 3D shape and pose of each person in the scene,as well as their relative poses to the camera. We use SMPL[54] as our representation since it allows us to reconstructcomplete human mesh from partial observations. Then wecast a ray through each pixel and record all the 3D pointswhere the rays intersect with the human mesh via ray-planeintersection (see Fig.3-mid). Finally, we identify if anyof those 3D points are visible in other images by 2D-3Dassociation. If there is, we say the two pixel rays intersect in3D and the corresponding two pixels are VCs. Speciﬁcally,we use DensePose [30] to associate each pixel with eachpoint on human mesh. If a ray hits the back of the meshand DensePose tells us a pixel corresponds to the back, thenthese two pixels are VCs. Fig. 3 illustrates the process,which we repeat for all images. We note that our formulationis generic and can be potentially applied to other objects solong as there exist proper shape priors and surface mapping.We show an example on cars in Sec. 4.159270图4.定性结果。（左）输入图像。（右）恢复的相机姿态。人体网格仅用于说明目的。0图5.相机距离的影响。我们展示了随着相机基线的增加，对应点数量（左）和姿态误差（右）的变化。0扩展到多相机设置（如第4节所示）。03.1. 虚拟对应（VCs）0设R H � W � 3是在不同视点下捕获的同一场景的图像，p1，p2 2R2是它们各自图像坐标中的点。设K1，K2 2 R3 � 3是相机内参，[R1，t1]，[R2，t2] 2 R3 �4是它们的外参矩阵。从相机中心o 2 R3开始的射线行进0通过p的射线可以写成rp(d) = RT(dK-1¯p - t)，其中d >0表示射线上的深度，¯∙表示齐次坐标。0我们在第一张图像中称之为p1的点，在第二张图像中称之为p2的点0第二张图像中的(p1，p2)是虚拟对应，如果存在一对d，使得：0由于对交点的位置没有约束，射线可以在（i）共视的3D点处相交，（ii）只在一个图像中可见的3D点处相交（在其他图像中被遮挡），甚至（iii）不可见的点（例如自由空间、占用空间或来自遮挡场景/物体的点）。0第一种情况恰好是经典对应的定义0spondences [ 20 , 66]。第三种情况涵盖了许多语义对应的情况，其中目标3D点是不可见的。例如，研究人员已经利用2D人体关键点重建3D关节[15,22]。严格来说，3D关节位于人体内部，在图像中是不可见的。因此，虚拟对应点可以被看作是多种现有对应的泛化。0在第二和第三种情况下，虚拟对应点对应于不同的3D点0虚拟对应点的另一个关键特性是它们符合0例如，我们过去无法对非重叠图像使用五点算法[53]，因为不存在对应关系。然而，虚拟对应点更加灵活，不限于描述相同的共视场景点。因此，我们可以估计图像之间的虚拟对应点，然后求解本质矩阵。关于虚拟对应点和极线几何的更多讨论，请参考补充材料。0虚拟对应点非常强大，但纯粹从中估计它们是困难的0对于2D图像来说并不是一件容易的事情。如果不知道相机的相对姿态，就无法利用公式1来验证两条相机射线是否相交。此外，虚拟对应点可能具有完全不同的外观和语义，这使得我们无法采用类似于经典对应估计方法的方法。幸运的是，场景中有许多我们熟悉的物体的形状。有了这样的先验知识，我们可以幻想出物体的形状，并估计射线在另一侧与物体的哪个部分相交。我们只需要找到其他图像中击中（看到）相同相交点的射线（像素）即可。0基于上述直觉，我们提出了一种方法来0给定一个2D图像，我们首先利用深度网络[41]进行探索Ri,ti,X 1 ,Xj2)159280（a）SuperGlue（b）虚拟对应点0图6.定性比较。当图像几乎没有重叠时，经典对应点估计器失败，因为没有共视的三维点。只要相机光线相交，虚拟对应点可以在两种情况下找到。颜色表示极线误差。03.3. 广义束优化（BA）0建立虚拟对应点后，下一步是0我们的目标是同时优化相机位姿和稀疏的三维场景几何。与经典SfM类似，我们使用RANSAC和五点算法[34]在循环中初始化相机位姿。但是，我们使用的是虚拟对应点而不是经典对应点。0由于虚拟对应点可能对应不同的三维点（见0图2中的传统三角测量方法无法恢复两个三维点。因此，我们利用初始形状估计（由深度网络预测）计算射线-曲面交点，并记录每个虚拟对应点的第一个命中点。然后，使用五点算法中估计的相机位姿将这些三维点注册到全局坐标系中。0由于估计的结构（即稀疏的三维点）0由于姿态和相机位姿严重依赖于预测的形状先验，它们可能会有噪声。我们通过最小化重投影点与虚拟对应点之间的距离来进一步改进估计结果。形式上，设(Xj1,Xj2)为第j对重建的三维点，(pi1,pi2)为来自相机i1和相机i2的关联虚拟对应点。将�=(i1,i2,j1,j2)表示为相应索引的元组。我们的目标是最小化：0min0X0�0kpi1−�i1(Xj1)k2+kpi2−�i2(Xj2)k20s.t.0�0(Xj1−oi1)�(Xj2−oi2)0�T0(oi2−oi1)=0,0其中�i(X)�Ki(RiX+ti)是透视投影算子，约束条件强制两条相机光线共面，从而满足极线几何关系。0使用约束，我们可以进一步重写一个虚拟对应点0作为另一个变量的函数：0Xj2=Xj1+aj∙(Xj1−oi1)+bj∙(oi2−oi1). (3)0两个自由参数aj和bj可以被视为相交点之间形状的“厚度”。当两个参数都为0时，两个三维点合并为一个，虚拟对应点就变成了经典对应点。0通过将方程3代入方程2，我们得到一个无约束的0与之类似但更通用的最小化问题0我们假设内参已知或已经估计。0（a）经典SfM（b）我们的SfM0图7.姿态误差与真实姿态距离的关系。经典SfM中的中位数姿态误差（左图）随着相机基线的增加而增加，而我们方法中的中位数姿态误差（右图）无论视角差异如何都保持较低。0与经典BA相比，我们不再优化一组共视的三维点，而是调整一组点对。然而，我们注意到使用传统方法（如SuperGlue[66]）提取的经典对应点仍然可以适用于这个公式，只需将aj=bj=0固定即可。我们使用L-BFGS[58]来解决这个非线性最小二乘问题。在实践中，我们将方程3视为一个软约束，因为它的效果稍微好一些。更多讨论请参考补充材料。0讨论：虚拟对应点可以与经典对应点相结合0用于改善三维重建系统的整体鲁棒性和性能（见第4节）。当图像几乎没有重叠且几乎没有经典对应点时，系统可以依靠虚拟对应点来恢复世界和相机几何关系。当图像有重叠时，虚拟对应点可以作为额外的视觉线索和正则化项。因此，虚拟对应点显著扩展了现有SfM系统的适用范围。4.实0在本节中，我们首先评估了虚拟对应的有效性。0在本节中，我们首先评估虚拟对应和我们的3D系统在两个具有挑战性的数据集上的效果。然后，我们全面研究了我们方法的特点。通过估计的相机姿态，我们进一步进行了两个下游任务，即多视图立体场景重建和新视角合成，在困难的极限视角情况下。最后，为了展示我们的方法超越基于人类图像，我们展示了使用汽车的概念验证结果。04.1. 数据集0CMU全景数据集：CMU全景数据集[40, 42]0CMU全景数据集是一个设计用于人体分析的大规模多视图视频数据集。它提供了地面真实相机姿态以及跨视图的人物关联。这些序列是在一个工作室中捕获的，相机广泛分布在穹顶上，提供了一组在现实世界中几乎不可用的多样视角（例如，从上方看一个人的相机）。我们从pose、haggling和dancing中选择了43个序列。每个序列包含1到3个执行不同动作的人。我们将数据分成两个部分。每个部分包含一组唯一的序列和相机，没有任何重叠。由于图像质量问题，我们只考虑由高清相机拍摄的视频。我们每隔五秒采样一帧，以避免相似的人体姿势。我们还对每个采样帧进行人体检测。如果场景中没有人物存在，我们将丢弃该帧。总共，我们获得了每个部分2955个图像集，每个集合包含15-16个相机视图。更多细节请参阅补充材料。159290姿态估计AUC（"）CMU Panoptic Studio Mannequin Challenge0SuperGlue [66] 10.02 16.74 19.36 26.38 34.85 39.100LoFTR [74] 5.12 10.47 13.07 27.47 35.98 40.100SIFT [55] + BA [68] 7.68 11.39 13.33 14.17 20.24 24.250SuperPoint [20] + BA [68] 9.22 13.77 15.85 17.12 23.48 26.810SuperGlue [66] + BA [68] 10.68 16.57 18.92 26.24 35.12 39.460LoFTR [74] + BA [68] 8.35 14.52 17.01 27.51 36.32 40.550深度回归[49] 14.36 18.60 23.18 4.61 11.23 16.440深度优化[9, 45] 7.88 27.17 42.42 15.38 47.08 63.670我们的SfM 18.21 46.05 62.08 36.24 61.38 73.200表1.CMU数据集和MC数据集上的两帧相对姿态估计。前两行使用五点算法推导相机姿态。BA = 捆绑调整。0CMU全景数据集是一个设计用于人体分析的大规模多视图视频数据集。它提供了地面真实相机姿态以及跨视图的人物关联。这些序列是在一个工作室中捕获的，相机广泛分布在穹顶上，提供了一组在现实世界中几乎不可用的多样视角（例如，从上方看一个人的相机）。我们从pose、haggling和dancing中选择了43个序列。每个序列包含1到3个执行不同动作的人。我们将数据分成两个部分。每个部分包含一组唯一的序列和相机，没有任何重叠。由于图像质量问题，我们只考虑由高清相机拍摄的视频。我们每隔五秒采样一帧，以避免相似的人体姿势。我们还对每个采样帧进行人体检测。如果场景中没有人物存在，我们将丢弃该帧。总共，我们获得了每个部分2955个图像集，每个集合包含15-16个相机视图。更多细节请参阅补充材料。0人体模型挑战：人体模型挑战（MC）[51]0MannequinChallenge（MC）是一个互联网视频剪辑数据集，参与者在不同的姿势下保持静止，而视频拍摄者在空间中自由移动并捕捉事件。这些视频设计上允许我们从不同角度观察静态场景。我们按照[51]类似的流程重建了地面真实相机轨迹，并过滤掉视点或视角变化较小的片段。最终，我们获得了18个视频片段，其中每个序列内的相机至少旋转了90°。为了增加姿态的多样性，我们还额外收集了6个MC视频。与CMU数据集相比，MC视频中的相机姿态相对较通用[28]，但背景场景更加多样，包括室内和室外环境。最后，对于每个片段，我们计算了每帧与第一帧之间的姿态差异。我们在片段的每个百分位数采样一帧，获得�200个图像对。所有图像都被视为测试集。04.2. 实验细节0指标：按照之前的工作[10, 66, 91, 92]，我们0使用累积误差曲线下的面积（AUC）来评估恢复的相机姿态。我们报告了三个不同阈值（15°、30°和45°）下的AUC。姿态误差定义为：1）预测旋转向量与GT旋转向量之间的角度差异的最大值；2）预测平移向量与GT平移向量之间的角度差异的最大值。我们报告平移的角度差异，因为它只能恢复到一个缩放因子[34]。至于3D重建，由于每个SfM算法可以选择重建哪些3D点，因此没有标准的协议来直接比较SfM系统产生的点云。0初始化 BA 姿态估计 AUC0SG VCs SG VCs @ 15° @ 30° @ 45°0X - - - 10.02 16.74 19.360X X - - 10.29 31.27 48.960X - X - 10.68 16.57 18.920- X - X 15.89 43.92 60.380X X X X 18.21 46.05 62.080表2. CMU数据集上的消融研究。SG = SuperGlue。0此外，这两个数据集都没有真实的形状。因此，我们按照[43]的方法计算了渲染掩码与2D分割掩码之间的轮廓准确度。0基线方法：我们将我们的方法与一系列广泛的相对姿态估计方法进行比较。0相对姿态估计方法的范围很广。对于传统的基于匹配的方法，我们首先使用SIFT [55]或SuperPoint[20]检测关键点并提取其对应的特征。然后，我们使用最近邻匹配与比率测试[55]或SuperGlue (SG)[66]建立经典对应关系。我们还与LoFTR[74]进行了比较。我们进一步使用RANSAC[26]结合五点算法来过滤异常值。然后，我们使用COLMAP[68]逐步恢复和束调整图像姿态。另外，如果只有两个视图，我们还使用五点算法和本质矩阵分解进行姿态估计。接下来，对于深度回归方法，我们使用最先进的姿态估计网络[24]来预测图像对之间的相对相机姿态。最后，我们与一种通过对齐3D形状来估计相机姿态的深度优化方法进行比较。这个基线方法受到最先进的室内极端姿态估计方法[64]的启发，可以看作是人类的一种变体。具体来说，我们使用最新的EFT-Net [41]重建3D人体模型，并使用ICP[9]将其与之对齐。为了避免局部最小值，我们首先基于它们的规范化坐标注册形状。接下来，我们根据语义将形状的每个部分进行关联。我们进一步剪枝出肢体，并仅在匹配过程中利用躯干和头部，因为这两个部位在实践中更加稳健。这些策略极大地提高了这个基线方法的性能。0实现细节：我们的3D系统同时考虑了经典对应关系和虚拟对应关系。0经典对应关系和虚拟对应关系。我们利用SuperGlue[66]估计经典对应关系，利用ReID-Net[93]在多个视点上匹配人物。对于深度回归基线，我们在CMU数据集的训练集上进行训练和验证。对于包括我们的方法在内的其他基于学习的方法，我们采用作者提供的预训练权重进行推理。04.3. 实验结果0CMU全景工作室：如表1（左）所示，我们的方法在CMU全景工作室数据集上取得了优秀的性能。0在两帧姿态估计任务中，SfM在所有阈值下都优于所有基线方法。SuperGlue [66]排名第二GT PoseLoFTROursGT PoseLoFTROursGT PoseLoFTROurs159300图9.使用我们的方法+多视角立体匹配重建的两个不重叠视频序列的网格。0当姿态误差阈值较低时，但是当阈值增加时，深度优化[9,44]超过了它。这是预期的，因为基于匹配的方法在经典对应关系可用时可以产生准确的估计，但是当视点非常不同的时候会发生灾难性的失败。相比之下，深度优化在视差较小时不太准确，但是失败较少。我们的方法既利用了经典对应关系又利用了虚拟对应关系，既不会发生灾难性的宽基线失败，也不会发生准确性不高的窄基线匹配。0图8. 误差 vs.图像数量。0我们的SfM的中位误差为15.7°，80th百分位的姿态误差小于24°。相比之下，深度优化的中位误差为23.5°，80th百分位的姿态误差为44°。与EFT-Net相比，我们将轮廓准确度从74%提高到81%。0我们还研究了我们的SfM如何随着更多的0放图像。根据COLMAP[68]的方法，我们从一对图像开始，然后逐步注册新图像。如图8所示，随着添加更多图像，姿态误差减小。当注册第三个图像时，减小最为显著。我们假设这是因为第三个图像大大增加了图像之间的重叠区域，提供了更可靠的经典对应关系，在束调整期间提供了更多可靠的对应关系。我们还将我们的方法与经典的SfM方法进行了比较。我们的AUC在所有阈值上持续优于基线（例如，@15°：28.4 vs17.6）。我们将读者参考补充材料，了解完整的消融表格、累积误差图和所有方法在输入图像方面的详细性能。0人体模型挑战：如表1（右侧）所示，我们的0方法在所有阈值上优于所有基线。尽管场景更加多样化，我们在MC数据集上的AUC高于CMU数据集。我们假设这是因为MC数据集中的视点变化比CMU数据集更不显著，这是由于数据集的采集方式造成的。0定性结果：我们在一个双视图MC图像对上展示了我们的结果。0视图MC图像对和五视图CMU图像集。我们的测试场景通常非常具有挑战性，具有较大的视角变化和较小的共视区域比例。尽管如此，我们提出的SfM框架能够0估计的姿态 GT姿态0旋转误差：47.6° 平移误差：1.85 旋转误差：1.6° 平移误差：0.060用于评估的姿态0我们的方法初始化 LoFTR 初始化0LoFTR + BARF 我们的方法 + BARF0(a)0(c)0(b)0(a) (b) (c)0(a)0(c)0(b)0图10.新视图合成：（左上）使用LoFTR初始化并由BARF优化的相机姿态；（右上）使用我们的方法初始化并由BARF优化的相机姿态；（底部）由BARF在GT姿态、LoFTR和我们的框架下初始化合成的图像。0准确恢复相对姿态和参数化人体形状。04.4. 分析0消融研究：为了更深入地了解每个组件的贡献0每个组件的贡献，我们在CMU数据集上使用不同的配置评估我们的方法。如表2所示，仅在初始化阶段利用VCs，我们的方法在大阈值上超过了经典的SfM。此外，消融研究表明，束调整对于VCs至关重要。我们推测这是因为VCs是从初始形状先验构建的，而初始形状先验存在噪声。通过束调整线段，我们实质上是在VC重投影误差的高斯噪声假设下进行最大似然估计[34]，从而减轻了由于不准确的VC对引入的误差。0视点变化的影响：我们使用MC数据集0为了说明经典对应关系和虚拟对应关系如何随着视点变化而演变以及它们如何影响姿态估计。一般来说，地面真实相机姿态差与视频帧索引距离成正比。对于每个视频，我们计算所有帧与第一帧之间的经典对应关系和VCs，然后基于它们估计相对相机姿态。由于视点变化时经典对应关系的数量急剧减少，经典SfM失败。相反，我们的SfM框架结合了经典对应关系和VCs，以避免失败。图5展示了我们的系统如何在所有距离上产生良好的估计的示例。我们还在CMU数据集上展示了“离散”评估结果，如图7所示。经典SfM方法的姿态误差随着与地面真实相机姿态距离的增加（对角线方向）而显著增加，而我们的SfM表现出In this paper, we introduced a novel concept called virtual159310图11. 来自汽车的虚拟对应点。0在所有设置中都保持一致。0人体部位的可靠性：我们计算了人体部位的直方图。0在两个数据集上的所有VC中，约有一半的VC位于人体躯干上，约有12%的VC来自人头部。其余的VC均匀分布在整个身体上。与深度优化基线不同，我们的系统没有编码任何先验知识，但我们的方法能够自动发现人体躯干是预测的3D形状中最可靠的部位。图6显示了我们的SfM系统选择的一部分VC。0泛化到野外图像：我们的方法可以应用于真实世界的图像集合，不需要任何额外的处理。0可以应用于真实世界的图像集合，不需要任何额外的处理。我们在图1中对一对电影帧和两对体育照片进行了测试。尽管相机之间距离较远，图像略有异步，但我们的系统仍然能够产生合理的估计结果。更多关于经典电影和体育赛

下载后可阅读完整内容，剩余1页未读，立即下载