重复结构中的歧义消除问题：视角路径探索测地上下文的重要性

170 浏览量更新于2023-10-15 收藏 1.67MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3836视点路径从到区分不可区分的：通过测地上下文探索结构歧义严庆安1龙扬1张玲1肖春霞211武汉大学计算机学院2武汉大学软件工程国家重点实验室{yanqingan，yanglong，lingzhang，cxxxiao}@ whu.edu.cn摘要运动恢复结构（SfM）中的一个长期问题是由重复结构引起的视觉模糊。目前的消歧算法主要通过显式背景上下文来推断歧义，因此在视觉上难以区分的高度歧义场景中面临局限性。而不是分析当地的视觉信息，我们提出了一种新的算法SfM消歧，探索全球的拓扑结构编码的照片集。这项工作的一个重要的适应是近似的可用图像使用的观点多样。我们注意到，虽然模糊图像在外观上看似相似，但它们实际上在测地线上相距很远。我们通过自适应地识别具有相邻视点的摄像机来建立流形我们证明了所提出的方法在一系列复杂的模糊度数据集上的准确性和效率，甚至包括没有背景冲突的具有1. 介绍重复结构广泛存在于人类社会中。当将它们直接放入3D重建中时，例如，运动恢复结构（SfM），会产生显著的几何误差这种重建缺陷源于模糊图像之间的感知对应。与标准SfM管道[2，11，26]一样，通常首先应用成对特征匹配[20]来建立图像之间的视觉然而，在存在复制结构的情况下，该步骤变得非常不可靠。不同立面上的许多相似但不同的特征将被等同地连接，这因此误导了随后的SfM过程以将多个实例配准到单个表面上，并产生幻觉重建模型。区分结构歧义是一个具有挑战性的(a) 背景历境(b) 测地环境图1.一个视觉上无法区分的场景的例子。(a)展示了北京天坛的对称结构。它们在纹理上非常相似，并且包含很少的背景信息以进行歧义推断。因此，最近的disam- biguating方法仍然会导致不正确的模型，这样的场景。(b)表明，而不是背景上下文，邻近图像探索的测地线关系提供了一种更有意义的方式进行歧义推理。也是SfM的重要任务最近的最先进的方法[13，16，29]识别高度依赖于背景上下文的歧义。这意味着，除了重复的结构之外，在模糊的图像中应该存在足够的视觉矛盾。然而，对于一些没有明显背景区分的场景图中的天坛。1（a），假设将被违反。我们人类观察者能够区分歧义的原因可能是因为我们可以从输入集合中提取全局场景先验，然后利用该知识来弥合不同视图之间的位置差距在本文中，我们也打算利用这些信息。我们注意到，在实践中，捕获的场景图像通常沿着某些可访问的路径聚集。这种组合的视点集合揭示了关于输入的全局拓扑的高级知识配准错误的模型天SFM地面3837场景，也就是说，虽然模糊的图像似乎在纹理上看似相似，但根据视点变化，它们实际上相距很远（b）款。因此，我们在本文中提出了一种新的测地线感知算法的视觉模糊SfM校正。我们的基本思想是使用多个视点来表征可用图像，并通过直觉识别视觉歧义，即假定的特征匹配不仅应该是视觉上连接的，而且应该是大地测量上一致的，这可以分别编码在两个网络中，可见性网络和路径网络。我们认为，在可见性网络中连通但根据沿路径网络的视觉传播而变得不连通的模棱两可的对应我们的算法是可扩展的，并作为一个预处理的实际SfM重建。我们对各种具有挑战性的模糊数据集进行3D重建，即使在视觉上无法区分的场景中也能显示正确的配准。总之，我们在本文中提出了三个主要贡献：（i）在SfM应用程序中使用多个视点对可用图像进行模糊校正建模的想法，（ii）在存在重复图像内容的情况下将图像大地测量地组织到流形上的嵌入框架，以及（iii）用于自适应模糊识别的新测量，大地测量一致性我们的代码可以在https://github.com/yanqingan/SfM_Disambiguation上找到。2. 相关工作对称和重复结构近年来在图形学和视觉领域引起了极大的兴趣。这种模式为应用程序提供了信息先验，如图像完成[15]，单目建模[17，25，31]，bundle重新调整[9]和场景拼接[8]。另一方面，重复结构也会导致特征匹配中的视觉模糊，这对SfM是灾难性的。虽然最近的匹配系统[7，19，32，33]在效率和准确性方面取得了显着进步，但它们仍然无法区分模糊特征。在本节中，我们将回顾几种旨在减轻结构歧义影响的相关方法。第一种工作是基于几何推理。Zach等人[36]通过在匹配图上验证循环一致性来推断结构歧义。他们的理由是，在一个循环中的图像对之间的关联变换的累积应该是恒等式。任何涉及明显环闭合不一致的循环都表明出现了不正确的配准。然而，该标准限制了该方法在较大循环上的有效性，因为变换计算中的累积误差将变得不可消除。Ceylan等人[6]提出了另一种基于循环约束思想的方法。他们首先通过用户标记的模式检测每个图像中的重复元素，然后根据形成基于图的优化以获得全局一致的重复结果。该方法比Zach等人的方法有显著的改进。[36]但仅规定了出现在平面立面上的规则表示，因此不能处理在圆顶、教堂等上发现的旋转对称。结构歧义产生的另一个机制是对背景语境的探索.Zach等人[35]引入了缺失对应的概念，其主要思想是分析图像三元组之间特征对应的共现。如果第三个图像丢失了其他两个图像共享的大部分匹配，则该视图更有可能不匹配。然而，该度量也倾向于惩罚性地拒绝具有大视点变化的许多正图像对Roberts等[22]通过将其与图像时间戳线索集成到期望最大化（EM）框架中并迭代地估计误配准来改进标准。这样的时间信息使他们的方法更准确，但也限制了其在无序图像中的使用Jiang等[16]介绍了一种新的客观函数，该函数评估整个场景而不是图像三元组上的全局缺失他们认为，正确的3D重建应该与图像中重新投影的3D点的最小缺失相关联这种假设是合理的，但是，它也失败了无序的照片集。因此，最近，Wilson和Snavely [29]将丢失对应的想法扩展到大规模的互联网集合。该方法验证了一幅图像中的相邻观测值是否对其他图像也可见，并采用二分局部聚类系数（blcc）来量化这种一致性。该算法具有很好的可扩展性，但不适合小规模数据集。此外，它容易导致过度分割，因为所有检测到的坏轨道都被直接丢弃。Heinly等人[13]通过分析图像之间的重投影几何冲突，介绍了一种用于模糊校正的有用的后处理框架。他们首先通过SfM获得初始3D模型，然后通过比较不同3D结构的2D投影来检测和减轻SfM中的配准错误。Heinlyet al. [14]设计另一种后处理方法，通过使用局部聚类系数（lcc）有效地分析图像中3D点的同现。这两种方法在许多具有挑战性的场景中发挥作用，然而，由于需要重建3D模型，因此会产生一些计算成本。此外，对于没有明确背景区分的场景，它们也会导致效果不佳.在这项工作中，我们探索了一个完全不同的属性，从最近现有的消歧方法。我们的方法研究了照片集合之间的测地线关系，并且没有对序列信息或背景背景上下文做任何假设这使我们的方法能够解决一系列具有挑战性的照片集，其中最近的方法383880006000400020000度=0度=180程度8006004002000序列ID通过研究路径网络中拓扑编码的视点轨迹，将基线问题分解为许多更容易的小基线片段。网络G=（I，E）对于每个图像Ii∈I都有节点，并且边（Ii，Ij）∈E链接具有测地相邻视点的图像对，例如，侧向运动这是基于三个有益的观察。(1)在实践中，摄影师总是沿着某些可进入的街道拍摄场景，这些街道可以被描述为路径网络中的路径(2)为了实现3D重建，图2.根据视点变化统计特征匹配。虽然这些图像看起来相同，但仍然缺少许多匹配，并且只能通过具有相似视点的相邻图像进行匹配要么失败，要么表现不佳。我们的方法的另一个优点是可扩展性。我们的方法作为一个预处理的增量SfM和工程自动和高效，即使在大规模的互联网数据集。此外，我们的方法并不直接删除坏磁道，而是将其分成多个不同的个体。因此，它使我们能够产生完整的模型。3. 流形上的模糊性建模如在标准运动恢复结构（SfM）设置[26]中，我们假设图像集合I={I1，...，In}，其与通过图像匹配[20]和几何度量验证[10]获取的一组特征匹配相关联。更具体地说，图像和对应关系之间的关系可以表示为二分图V=（I，T，L），称为可见性网络[29]。它具有分别用于图像I和轨迹T的节点，其中轨迹Tf是指在不同图像平面内捕获相同物理点f的局部特征的序列，并且如果由下式表示的空间点，则存在边缘（Ii，Tf）∈L轨迹Tf在Ii中可见。我们将视觉连接表示为- 由相同轨道链接的边缘对（Lif，Ljf）SfM在用于图像配准和相机附件的轨道上操作。通常，轨迹应该对应于物理世界中的唯一3D点，然而，在存在重复结构的情况下，特征匹配步骤倾向于将多个3D点混合到单个轨迹中。因此，我们的目标是验证V中视觉连接的可扩展性，并分解这些混合轨迹。我们注意到，即使重复结构在外观上看起来相同，它们实际上位于不同的地理位置，即，它们之间存在位置冲突图3显示了我们的想法的简要说明。3.1. 路径网络表示为了在已知相机姿势的情况下可追踪地估计位置冲突，我们将这个硬宽在这种情况下，输入场景通常从不同的视点被过度描绘。这种丰富的视觉重叠可以作为沿着网络路径的相邻采样节点。(3)歧义结构只是在结构上相似，但绝不会完全相同，如图1所示。二、这意味着，与重复副本相比，测地邻居通常包含更多有用的信息，这对于网络构建是有意义的每个图像的许多大地测量邻居为我们提供了关于3D场景的全局拓扑结构的高级知识，用于模糊推理，而不是单个图像内容。我们还定义了一条几何路径Pij={Eij，.，E{j}表示连接图像Ii的连接边序列和I j。注意，这样的路径Pij实际上揭示了从视点Ii到Ij的虚拟相机轨迹。具有相似外观的重复图像总是由网络中的远程测地线路径组成，如图所示。第3（a）段。3.2. 测地线一致性然而，我们的方案不是直接计算网络中每个图像对之间的测地线距离（最短路径[5，27]），因为很难确定对应于视觉模糊出现的确切阈值。许多具有宽视角变化的无模糊图像也可能有助于大的距离值。我们提出了一个新的度量，测地一致性，以定量衡量的矛盾。我们注意到，如果两个图像不匹配，它们之间的测地线路径要么被阻挡要么在视觉上脱节;根据路径网络中的视点变化，无法将它们所看到的从一个节点传播到另一个节点，即使它们在可见性网络中视觉上是连接的。为了更清楚地说明这个概念，我们参考图1中的例子。3.第三章。在图3（a）中，我们展示了一个由数据集Arc de Triomphe中的六个图像（彩色圆圈中的ID）组成的路径网络。由边（黑色实线）直接链接的图像在大地测量上相邻。图3（b）显示了两条轨迹A和B（分别以蓝色和橙色绘制），这为我们提供了三个3D点的可见性（B对应于两个点），以及网络中的两条测地线路径：从图像1到3以及从图像1到6。为了验证与图像1和3之间的轨迹A相关的视觉连接的可扩展性。我们907场比赛166场比赛ID：ID：匹配数匹配数−100−80−60−40−200204060801000 5 10 15 20253839pB连锁断裂B测地一致连接一测地不一致连接(a) 路径网络（b）测地线一致性图3. 一个简单的说明我们的测地线意识消除歧义的策略。(a)显示了由凯旋门中的六个图像组成的路径网络。请注意，虽然这两个模糊图像在外观上看起来相似，但它们共享一条长的测地线路径。（b）显示了两条轨道和两条测地路径。图像1和图像3之间对应于轨迹A的视觉连接在大地测量上是一致的，因为该路径中的所有中间节点然而，音轨B的图像1和6之间的连接不一致;在中间图像4中沿着其测地路径丢失了轨迹。检查沿其测地线路径的所有中间节点是否也遵循此轨迹。由于轨迹A在图像2中可见，因此该连接满足测地线一致性的标准相比之下，图像1和6之间的连接是令人难以置信的，其中其测地线路径由六个图像组成。虽然图像1、2、3都观察到轨迹B，但在图像4中，轨迹丢失。视觉传播中的这种断开提供了场景变化的证据，并指示图像1和6实际上对应于不同的3D点，即，在地理上不一致因此，测地线一致性准则要求正确的两两连接应该基于它们在网络G中的测地线路径是可传递的。更具体地说，让Lip表示节点Ii和Tp之间的V中的边。我们定义了与航迹Tp相关联的视连线（Lip，Ljp）是测地一致的，只要存在一个可行的ble测地线路径Pij={Eik，.，Ekj}Ekj链接图像Ii和Ij，并且沿着该路径的每个中间节点Ik观测轨迹，即， Lkp∈ L;否则，连接受歧义影响。我们将这一措施制定如下：.ΣTH（·）评价了边对的总体质量，根据测地线一致性准则。如果是不期望的连接，它们将导致评估的负面增加通过将混淆的轨迹划分为不同的轨迹，我们可以阻止来自不一致的视觉连接的负面贡献，并获得更大的QL。相比之下，合理轨迹的不正确分割将导致正边缘对的减少。因此，直观地，QL的全局最大值应该对应于正确的可见性网络。如果数据集是无二义性的，则所有可视连接都有助于获得正值，QL= 0，V′=V。4. 消歧算法因此，我们的算法有两个主要步骤：（1）构造路径网络;（2）基于测地线一致性分析修正模糊航迹。接下来我们依次描述它们。4.1. 网络建设H（ Lip，Ljp）=3.3. 目的1个P，-1否则。（一）我们面临的一个主要技术问题是路径网络的建立在没有已知摄像机姿态或地理标记的情况下，从图像中获取期望的测地线关系是具有挑战性的，特别是在存在模糊图像内容的情况下。我们现在有一个衡量标准，可以确定歧义-我们的关系但是，我们并不打算直接删除包含不一致连接的轨道，而是找到一种方法来重用它们。因此，我们的目标可以简单地表述为：帐篷最近的图像嵌入方法，如基于knn的方法[4，27]或基于训练的方法[12，28]不考虑模糊性，因此在我们的情况下它们不是有效的替代方案。虽然[23]使用基于排名的方法进行横向图像检索，但它也是不够的对于大多数歧义数据集来说，它是鲁棒的为了克服这一困难--QL=T′∈T′ H（Lip，Ljp）−Tp∈TH（Lip，Ljp），（2）针对这一问题，我们提出了一个有用的采样和增长策略，该策略利用了显式和隐式的唯一性，这需要最大化。我们将V作为唯一的输入。V′=（I，T′，L′）是我们打算实现的一个新的消歧可见性网络。图像内的点进行邻域推断。场景采样阶段通常，3D场景可以分解为两类点：混淆点节点大地测量相邻边3840D，这有助于模糊，和独特的点U，不造成视觉模糊。这些独特之处对我们的网络建设是有意义的信息。毛皮-皮革，独特点还包括两组：明确的唯一点（例如，突出的背景冲突，例如在[13，16，29]中探索的）和隐式唯一点（对应于小尺度纹理变化）。如图2、即使模糊的照片看起来极其相似，但仍然有许多特征只能通过其地理上的邻居来匹配。这表明，除了外显的背景区别之外，还可以使用前景中的许多隐式独特点。为了识别独特的点（包括显式和隐式），我们通过选择一组标志性图像来总结场景。特别地，我们要求所选择的样本CI应满足两个性质：（i）完整性，即，尽可能完整地覆盖现场，（ii）独特性，即图像在外观上必须足够独特这样的图标视图提供输入场景的概览。此外，我们注意到，由于前景内存在唯一点和场景完整性的要求，代表性图像对应于重复结构，例如，凯旋门的前、后门，也将分别选定。通过把这些标志性的图像交叉起来，我们就可以得到困惑，消除导致几何模糊的点;另一方面，剩余的点因此是唯一点。为了公式化，令Ti表示通过以下方式观察到的轨迹：图像Ii. 在图像集上，我们用TA=Ii∈CTi来近似场景的所有点，其中TA<$T。因此，混淆点表示为轨迹一个S可以被多个图标图像观测到，其中 D= Ii ，Ij∈CTi<$Tj，因此唯一点可以通过U = TA− D计算。为了自适应地获得图标图像，我们制定将属性抽象为两个对象项。完成测试-Ii）−R（C），并选择视图Ii，对于该视图Ii，其最大值。如果≥0，我们就把这个视图作为一个新的图标图像添加到C迭代继续进行，直到集合中没有视图可以进行10.路径增长阶段给定选定的图标图像和唯一点，此阶段涉及计算链接-年龄之间的标志性意见和其他图像根据独特的点。在这方面，路径网络G可以被看作是一个二分图，其节点分别是图标图像和非图标图像。根据唯一点U的计算，它们将唯一地分布在每个图标图像中;它们之间没有任何共同点。包含在每个图标图像Ii中的唯一点Ui实际上指示在相邻的非图标图像中应当可见的场景因此，我们定义，只有当它们共享共同的唯一点时，图像对才是测地相邻的。形式上，对于每个非图标图像I j，我们在I j和任何图标图像Ii之间的网络中添加直接边，满足|UjUi|>，其中是一个小v econ-考虑到噪音轨迹。我们使用= 5in我们的实验注意，所获得的路径网络是有意义的;所选择的图标图像形成输入场景的基本锚点，而非图标图像用作与这些孤立点相关的路径。这种嵌入方案是有效的，并在我们的实验数据集上表现良好。4.2. 轨道再生有了可用的路径网络，我们剩下的计算是获得一个消除歧义的可见性网络，最大化方程中的目标。二、而不是穷尽验证测地线的一致性在V中的每个视觉连接，我们采取了有效的传播方法。最初消歧的可见性网络V′是空的对于每个图像I，我们研究它的直接近邻-性可以表示为|Ii∈CTi|，其描述由集合C覆盖的轨道的数目。我们预计这一我bors在G.如果V中的轨迹Tf，由Ii和它的一个共享，邻居I，已经被V′中的像I（或I）观察到为了保证一个好的j′i j，C输入场景的覆盖。在我看来，长期以来-以轨迹Tf的形式，然后我们将另一个视图Ij（或Ii）也到这个已存在的轨道T′;否则，我们创建着色性以以下形式量化：|I，I∈CTi<$Tj|，fi j表示Ii和Ij之间的连接的新轨迹其测量包含在集合中的轨道的碰撞。这个术语防止我们从相似的观点选择冗余的候选人因此，我们的采样过程相当于最大化以下质量函数：[[R（C）=|我不是|−α|Ti∩Tj|、（3）在V′.该方案使可见性从一幅图像逐渐传播到路径网络中的相邻图像，直到所有图像及其直接相邻图像都被处理完。它只在必要时创建新的轨道，因此保证最佳的方程式。二、此外，没有必要I∈CI，I∈C显式计算测地线一致性，因为这些直接ii j其中α >0控制显著性条款的效力。我们以有效的贪婪方式解决优化问题，类似于[24]。该方案以C= 0和R（C）= 0开始。在每一次迭代中，我们计算出R =R（C连接的邻居在地理上是一致的。在实际实现中，这一过程可以看作是一个基于路径网络邻域的航迹重算步骤，并可以通过按广度优先顺序遍历网络来有效地完成38415. 实验在本节中，我们评估了我们提出的算法在各种各样的与视觉模糊相关的照片集上的性能。它们是我们日常生活中常见的例子，从小型的实验室物体到大型的城市结构。表1列出了这些数据集的详细总结。在我们的方法中只有一个参数α。这使得我们的方法成为一个可行的选择，供一般使用。我们发现α=0。在我们的实验中，1足以产生满意的结果。我们用C++语言实现了该算法，并在一台3.30GHz Xeon四核CPU和32GB内存的机器上进行了测试。我们首先验证了我们的方法的鲁棒性的一组基准数据集正确的SfM重建。数据集燕麦[22]是通过使用手持相机在室内对象周围采样获得的。因此，它的规模相对较小，并具有均匀的图像分辨率和照明条件值得注意的是，在这个场景中没有重复的对象;它是同一个物体放在不同的地方。因此，它包含很少的隐式唯一点的前景，但存在大量的显式唯一点的背景支持我们的推断。此外，我们在实验中发现，我们的场景采样算法在4.1节能够识别该场景中的全部混淆然而幸运的是，在某些情况下，过度识别一定数量的混淆点不会造成太大的麻烦，只要每个图像中仍然有足够的独特点来指示测地线推断。相比之下，从[13]获得的非结构化照片集Arc deTri- omphe，Alexander Nevsky Cathedral和Berliner Dom的规模要大得多，并且包含具有各种分辨率和照明的图像。它们都展现了一个封闭的标志性建筑，然而，由于重复结构的存在，有些部分是错位的。这些数据集包含大量的显式和隐式唯一点，这使得我们的方法很容易纠正模糊的轨道，并产生正确的3D模型。对于凯旋门，我们成功地恢复了它的两个立面在相反的方向，同时保持他们不破裂。对于亚历山大涅夫斯基大教堂，我们的方法是能够修剪的幻觉圆顶源于重复的结构，并纠正沿柏林大教堂河的误注册。此外，我们还在单独的模型上测试了我们的算法，例如Radcliffe Camera[13]和Sacre Coeur[29]。与文献[13]一样，我们的方法成功地识别了Radcliffe Camera的两个模糊立面。然而，由于缺少连接这两个立面的可用图像，因此去歧义模型也被分为两个部分。圣心教堂也面临同样的问题，但更具挑战性。引起歧义的结构有很多，比如旁道表1. 我们的算法在不同照片集上的性能统计。从上到下，数据集分别是圣心大教堂，柏林大教堂，亚历山大涅夫斯基大教堂，凯旋门，拉德克利夫相机，天坛，杯子，建筑和燕麦Nimg和Npt分别指示输入相机和重建的3D点的数量。数据集NimgNPT时间我们[29日][13个国家]SC4,530590,26851.4米6.1米–BD1,618241,42211.9米3.2米11.8小时ANC44892,8202.3米36 S33.4米ADT43492,0552.2米21 S39.7米RC28277,6231.2米28 S–ToH145127,7522.0 m18 S26.7米杯648,81027 S3 s2.5米BD4714,89536 S2 s2.0 m燕麦238,58510 s1 s45 S外墙，额外的塔和圆顶。与[29]类似，我们的算法实现了该模型的四个部分：建筑的正面和两侧，以及巴黎的概况。这些数据集的结果如图所示。4.第一章为了评估专业性，除了基准集合之外，我们还在几个具有挑战性的数据集上测试了我们的方法，最近的消歧系统工作不佳或失败。髋臼杯数据集[16]显示了在相对表面上具有重复纹理的单个髋臼杯。唯一可用的背景上下文是杯柄（如[16]中所利用的），而在[13]中难以通过超像素分割进行检测。数据集建筑展示了一系列高度重复的立面，一栋楼这些照片是沿着一条笔直的街道拍摄的，包含了罕见的独特结构。此外，我们还在[16]中的天坛挑战中测试了我们的算法（作为他们的局限性之一）。这种旋转对称架构从任何方向看起来几乎相同，同时在背景中表现出可忽略的特征。这些例子的一个共同点是很难通过使用缺失的对应[29]或相互矛盾的观察[13]进行区分相比之下，我们的算法不仅利用显式的唯一点在背景中的歧义推理，但也隐式的唯一点在前景。我们正确地恢复这些场景的相机轨迹和对称几何。图5显示了我们的消歧结果。在表1中，我们记录了我们的系统的详细性能统计，包括输入图像和重建点的数量，以及每个比较方法的运行时间（包括消歧和I/O过程）。我们的算法比文献[13]的效率高得多，而且比文献[13，16，29]的应用范围更广。由于它用作SfM的预处理，因此我们不需要提前提供相机姿势和3D点位置。我们只在一个核心上测试[29]和我们的算法，而[13]38421234D56CB一B一图4. 我们的方法在基准数据集上的消歧结果。从1到6：燕麦，凯旋门，亚历山大涅夫斯基大教堂，柏林大教堂，拉德克利夫相机和圣心教堂。左图显示了VisualSFM产生的结果[30]。用橙色标记的正确图像是通过我们提出的算法获得的结果在4个线程上执行。与[29]的比较为了进一步比较，我们在实验中的数据集上运行[29]中的Matlab代码该方法也可作为标准SfM重构的预处理然而，它还需要一个FOV（视野）文件.这种方法的主要优点是它的可扩展性。从我们在表中对运行时性能的统计可以看出。1.一、与[13]和我们的算法相比，这个算法非常快。然而，它的准确性受到很大的限制。虽然圣心教堂被正确地分离，但许多其他数据集被过度分割，例如Radcliffe Cam- era和BerlinerDom。造成这种现象的主要原因是对不良曲目的惩罚性清除。此外-此外，由于用于blcc验证的图像有限以及缺乏背景信息，它在Oats与[13]的比较为了与这项工作进行比较，我们还测试了他们的Matlab代码，并使用线程池设置为4。该方法比[29]更鲁棒，并且由于存在足够的背景上下文，在我们的实验中对大多数数据集表现良好。然而，它在视觉上无法区分的数据集上也失败了对于Cup，Vi-sualSFM提供了大致正确的点云，但具有用于进一步改进的罕见的背景冲突，因此该方法输出具有未改变的几何形状的输入。对于建筑和天坛，由于缺乏有用的冲突对象，它也无法识别重复的结构3843图5.几个具有挑战性的数据集的结果，这些数据集具有视觉上无法区分的重复，分别是Cup，Building和天坛。第二列显示[30]的结果。第三列展示了通过我们的方法生成的3D模型。服务。该方法的另一个缺点是其计算成本高。它需要一个初始的SfM模型作为输入，并依赖于SLIC [1]来检测每个图像中的超像素因此，为了消除柏林大教堂的歧义，它花了我们超过11个小时和20GB的内存空间。另外，在不同的机器上测试Radcliffe Camera时，我们经常遇到Mat-lab中的并行化错误，并且在Sacre Coeur上遭受溢出。限制虽然我们已经证明了我们的方法在不同数据集上的有效性，但我们也注意到一些限制。首先，从图像中提取路径网络是一个具有挑战性的问题。为了产生令人满意的结果，我们隐含地假设图像之间有足够的视点重叠（通常小于60度）。我们在图中根据视点变化可视化了匹配曲线。二、在重复实例周围缺乏合理的视点重叠，例如在一个相同建筑物周围以非常不同的比例拍摄的两个照片集群，可能会影响我们的路径网络构建中测地线推断的准确性。第二，在场景采样阶段的贪婪搜索。4.1可能会卡在局部最小值。例如，考虑图4中凯旋门的重建结果（左立面）。由于过度选择标志性图像，一些不会引起歧义的正面曲目被认为是负面的，并在路径网络构建中消除。这将导致多个图像在路径网络中保持孤立，并且无法在轨迹再生步骤中链接。6. 结论本文提出了一种新的测地线感知方法来纠正由重复结构引起的SfM歧义，这可以被认为是对背景上下文的有效补充。我们注意到，输入图像approximates一个流形的观点和模糊的意见，在这个流形上分崩离析。我们提出了一个有用的框架来推断测地线的关系，从图像中存在的歧义，和一个有意义的措施来量化歧义。我们表明，这种方法是准确和有效的，可以处理各种具有挑战性的例子，即使没有翔实的背景。路径网络为场景理解提供了直观的途径因此，在未来，在SLAM [18，21，34]之前扩展测地线以进行环路闭合检测和SfM场景分析[3，8]可能是富有成效的鸣谢本工作得到了国家自然科学基金（No.61472288，61672390），国家环境技术中心（NCET-13-0441），软件工程国家重点实验室（SKLSE- 2015-A-05）。肖春霞为通讯作者。3844引用[1] R. Achanta、A.Shaji，K.史密斯，A.Lucchi，P.Fua，和S. 很好切片超像素与最先进的超像素方法的比较IEEETransactionsonPatternAnalysisandMachineIntelligence，34（11）：2274[2] S. 阿加瓦尔 N. 狡猾 I. 赛门， S. M. 塞茨，和R.塞利斯基一天建成罗马。载于ICCV，第72- 79页[3] I. 阿尔梅尼岛 Sener，A. R. Zamir，H. 江岛，澳-地布里拉基斯M. Fischer和S. Savarese大规模室内空间的三维语义解析。在CVPR，第1534-1543页[4] H. Averbuch-Elor和D.科恩-奥Ringit：按时间顺序排列的临时照片。ACM Transactions on Graphics，34（3）：33，2015。[5] J. Carreira，A. Kar，S. Tulsiani和J.马利克用于物体重建的虚拟视图网络。在CVPR中，第2937- 2946页[6] D. Ceylan，N. J. Mitra，Y. Zheng和M. Pauly.城市立面运动恢复结构与三维对称性检测的耦合方法。ACMTransactions on Graphics，33（1）：2，2014.[7] J. Cheng，C. Leng，J. Wu，H. Cui和H.陆用于三维重建的级联散列快速精确图像匹配在CVPR，第1-8页[8] A. Cohen，T. Sattler和M.波勒菲斯合并无法匹配的：缝合视觉上断开的sfm模型。在ICCV，第2129-2137页[9] A. 科恩角Zach，S.N. Sinha和M.波勒菲斯从运动中发现和利用结构的三维对称性。在CVPR，第1514-1521页[10] M. A. Fischler和R. C.波尔斯随机样本同意：一个范例模型拟合与应用程序的图像分析和自动制图。Communications of the ACM，24（6）：381[11] J. - M. 弗拉姆P. Fite-Georgel，D. 盖洛普T. 约翰逊先生，R. 拉古兰角吴玉-H. Jen、E.邓恩湾Clipp，S.Lazeb- nik等人。在万里无云的日子里建造罗马见ECCV，第3682010年。[12] C. Hegde、A. C. Sankaranarayanan和R. G.巴拉纽克在野外学习流形。预印本，2012年[13] J. Heinly，E.邓恩和J M.弗拉姆稀疏三维重建中重复场景结构的校正。见ECCV，第780-795页。2014年[14] J. Heinly，E.邓恩和J M.弗拉姆从无法区分的几何体中恢复正确的重建。在3DV，第1卷，第377-384页[15] J. - B. Huang，S.B. Kang，N.Ahuja和J.科普夫利用平面结构制导实现图像的自动完成。ACM Transactions onGraphics，33（4）：129，2014。[16] N. Jiang，P. Tan和L.- F.阿昌看不清的双重困惑：高度模糊场景中的动态结构。在CVPR，第1458-1465页[17] K. Koéser，C. Zach和M. Pollef e ys. 从单个图像中对对称场景进行密集3d再现在Joint Pat-tern RecognitionSymposium，第266-275页[18] G. H. Lee和M.波勒菲斯基于视觉的闭环几何验证中阈值的无监督学习在ICRA，第1510-1516页[19] W.- Y. Lin，S.Liu，N.Jiang，M.N. 做吧，P。Tan和J.陆Rep- match：用于重建现代城市的鲁棒特征匹配和姿态。参见ECCV，第562-579页[20] D. G.洛从尺度不变的关键点中提取独特的图像特征。International Journal of Computer Vision，60（2）：91[21]M. Pollefeys，D. 你好，J. - M. Frahm，A. 阿克巴尔扎德P. 莫尔多海湾克利普角恩格斯D.盖洛普，S.-J. 金姆，P. Merrell 等人详细的实时城市三维重建从视频。International Journal of Computer Vision，78（2- 3）：143[22] R.罗伯茨，S。N.辛哈河Szeliski和D.坚定地。对于具有大型重复结构的场景，从运动中提取结构。在CVPR，第3137-3144页[23] J. L. Schoenbe r ge r，F. Raden o vi c'，O. 好朋友，还有J。M. 弗拉姆从单幅图像查询到详细的三维重建。在CVPR中，第5126-5134页[24] I. Simon，N. Snavely和S. M.塞茨在线图像采集的场景摘要ICCV，第1-8页，2007年[25] S. N. Sinha，K. Ramnath和R.塞利斯基检测和重建3d镜像对称物体。在ECCV中，第5862012年。[26] N. Snavely，S. M. Seitz和R.塞利斯基摄影旅游：探索3D照片集。ACM Transactions on Graphics，25（3）：835[27] J. B.特南鲍姆河谷De Silva和J. C.兰福德非线性降维的全局几何框架。Science，290（5500）：2319[28] M. Torki和A.埃尔加马尔把当地特色印在插页上。在CVPR，第1743-1750页[29] K. Wilson和N.很聪明SFM的网络原则：用局部上下文消除重复结构的歧义。在CVPR，第513-520页[30] C.吴Visualsfm：一视觉结构从运动系统http://homes.cs.washington.edu/2011年。[31] C.吴，J. - M. Frahm和M.波勒菲斯基于重复的稠密单视图重建。在CVPR，第3113- 3120页[32] Q. Yan，Z. Xu和C.萧快速面向特征的视觉连接，用于大型图像集合。Computer Graphics Forum，33（7）：339[33] Q.延湖，澳-地杨角，澳-地Liang，H.柳河，巴西-地Hu和C. 萧基于几何的线性迭代聚类定量特征对应。Computer Graphics Forum，35（7）：1[34] L. 扬角，澳-地Yan，Y.Fu和C.萧融合深度图像稀疏序列的表面IEEE Transactions on Visualization and ComputerGraphics，2017。[35] C. Zach，A. Irschara和H.比肖夫缺失的对应关系能告诉我们什么关于3d结构和运动的信息？在CVPR，第1-8页[36] C. Zach，M. Klopschitz和M.波勒菲斯使用循环约束消除视觉关系的歧义。见CVPR，第1426-1433页

下载后可阅读完整内容，剩余1页未读，立即下载