多模型参数拟合的鲁棒估计器及其应用

48 浏览量更新于2023-10-25 收藏 2.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4634CONSAC：通过条件样本一致性的Florian Kluger1，Eric Brachmann2，Hanno Ackermann1，Carsten Rother2，Michael Ying Yang3，BodoRosenhahn11汉诺威莱布尼茨大学2海德堡大学3特温特大学摘要本文提出了一种用于拟合多个同形式参数模型的鲁棒估计器。应用包括在人造场景中寻找多个消失点，将平面拟合到建筑图像，或在同一序列中估计多个刚体运动。与以前的作品，采用手工制作的多模型检测的搜索策略相比，我们从数据中学习以先前检测到的模型为条件的神经网络将RANSAC估计器引导到所有测量的不同子集，从而一个接一个地找到模型实例我们在监督和自我监督的情况下训练我们的方法对于搜索策略的监督训练，我们贡献了一个新的数据集用于消失点估计。利用这个数据集，提出的算法是优于其他强大的估计器，以及指定的消失点估计算法。对于搜索的自监督学习，我们评估了所提出的算法的多单应性估计，并证明了优于国家的最先进的方法的准确性。1. 介绍通过低维参数模型描述3D场景，通常建立在简化的假设基础上，已经成为重建和理解我们周围世界的基础。示例包括：i）将3D平面拟合到建筑场景，其涉及在两个视图中找到多个单应性; ii）跟踪两个连续图像中的刚性物体，其涉及拟合多个基本矩阵; iii）识别人造环境中的主导方向，这涉及找到多个消失点。一旦从图像中发现这样的参数模型，它们最终可以用于多种应用和高级视觉任务。示例包括3D模型的自动创建[1，22，41，53]，自主导航[34，40，20，26]或增强现实[10，11，2，38]。模型拟合通常被实现为两步程序。首先，一个容易出错的低级流程，图1：CONSAC应用程序：多个实例的线拟合（顶部）、消失点估计（中间）和单应性估计（底部）。第二列和第三列中的色调表示不同的实例，第二列中的亮度随采样权重而变化。执行应遵守模型的轨迹数据点。例如，可以匹配图像对之间的2D特征点作为单应性估计的基础[21]，以确定3D点所在的3D平面。其次，使用将模型参数拟合到内点数据点的鲁棒估计器，同时将错误数据点识别为所谓的离群点[19]。一些离群值可以通过预处理有效地去除，例如，基于特征匹配中的描述符距离[29]。虽然拟合一个单一的参数模型的数据的情况下，在文献中得到了相当大的关注，我们专注于拟合多个模型的相同形式的数据的情况这具有很高的实际意义，如上面的例子所示。在那里，拟合由多个单应性表示的多个3D平面。然而，当数据中存在多个模型时，估计变得更具挑战性。一个模型的内点构成所有其他模型的离群点。当然，离群值过滤器无法去除这种伪离群值。4635多模型拟合的早期方法顺序工作：它们重复应用像RANSAC这样的鲁棒估计器，在每次迭代中删除与当前预测模型相关的数据点[51]。现代最先进的方法通过使用聚类或优化技术将数据点分配给模型或离群值类来解决多模型拟合问题[6，7，8，36，3，23，47，30，31，32，33，13]。在我们工作，我们重新审视顺序处理的想法，但结合它与学习鲁棒估计的最新进展[58，39，12]。顺序处理很容易适用于条件采样方法，尽管在概念上不如同步方法，但我们能够实现最先进的结果。我们工作的主要灵感来自Brachmann和Rother [12]的工作，他们训练神经网络以提高RANSAC估计器用于单模型估计的样本效率。相比之下，我们研究多模型拟合，让神经网络更新采样权重的模型，它已经发现。这使得神经网络不仅可以抑制离群值，还可以抑制除当前感兴趣模型之外的所有内点。由于我们的新RANSAC变体样本基于条件概率对假设进行建模，我们将其命名为条件样本共识（Conditional SampleConsensus，简称CONSAC）。如图所示，CONSAC。1，被证明是强大的，并实现了几个应用程序的最高性能。机器学习在过去已被应用于单参数模型的拟合，通过直接从图像预测模型参数[24，18]，替换鲁棒估计器[58，39，45]或增强鲁棒估计器[12]。然而，据我们所知，CONSAC是机器学习在多个模型的鲁棒拟合中的第一个应用。将机器学习应用于多模型拟合的一个限制因素是缺乏合适的数据集。以前的作品要么评估合成玩具数据[47]，要么评估一些手工标记的真实例子[55，49，17]。最具综合性和广泛使用的数据集AdelaideRMF [55]用于单应性和基本矩阵估计，不提供训练数据。此外，测试集仅由38个标记的图像对组成，自2011年以来在各种演示中重复使用，有可能导致新的方法来过度拟合这些例子。我们收集了一个新的数据集，用于多模型拟合，在这种情况下，我们称之为NYU-VP1。每幅图像都用多达8个消失点进行注释，并且我们提供了预提取的线段，这些线段用作鲁棒估计器的数据点。由于其大小，我们的数据集是第一个允许对多模型拟合任务进行监督学习的数据集。我们观察到，对于AdelaideRMF [55]工作良好的鲁棒估计器不一定能为我们的新数据集取得好的结果-1代码和数据集：https://github.com/fkluger/consacSAC不仅超过了这些替代的鲁棒估计消失点估计的准确性。它还超越了指定的消失点估计算法，该算法可以访问两个数据集上的完整RGB图像，而不仅仅是预提取的线段。此外，我们证明了CONSAC可以训练自我监督的任务，多单应性估计，即。其中没有可用的基础事实标记。这使我们能够将CONSAC与AdelaideRMF [55]数据集上的先前鲁棒估计器进行比较，尽管缺乏训练数据。在这里，我们还实现了一个新的国家的最先进的精度方面。概括而言，我们的主要贡献如下：• CONSAC，第一个基于学习的鲁棒多模型拟合方法。它是基于一个神经网络，顺序更新的条件抽样概率的假设选择过程。• 一个新的数据集，我们称之为NYU-VP，用于消失点估计。它是第一个为多模型拟合任务的监督学习提供足够训练数据此外，我们还介绍了YUD+，这是约克城市数据集[17]（YUD）的扩展，具有额外的消失点标签。• 我们为我们的新NYU-VP和YUD+数据集实现了最先进的消失点估计结果。我们超过了竞争的鲁棒估计，以及指定的VP估计算法的准确性。• 我们在AdelaideRMF [55]数据集上实现了多模型单应性估计的最新结果，同时使用外部数据集训练CONSAC自监督。2. 相关工作2.1. 多模型拟合鲁棒模型拟合是计算机视觉中的一个关键问题，在过去得到了广泛的研究。RANSAC [19]可以说是最常用的方法。它对最小观测集进行采样以生成模型假设，计算所有假设的一致集，即：与假设一致的观测值，从而内点，并选择具有最大共识的虽然在单实例情况下有效，但RANSAC不能估计数据中明显的多个模型实例。序贯RANSAC [51]通过应用RANSAC，去除所选假设的内点，并重复直到达到停止标准，依次拟合多个模型。PEARL [23]通过优化基于能量的泛函同时拟合多个模型，该泛函通过随机采样（如RANSAC）初始化。下面提出了几种基本上基于相同范例的方法[6，7，8，36，3]。[6]这是一个普遍的概念。4636多类问题在多种类型的模型可能拟合数据的情况下-另一组方法使用偏好分析[60]，该方法假设可由相同模型实例解释的观测具有相似的残差分布w.r.t.模型假设[47，30，31，32，33，13]。T-Linkage [30]通过偏好集对观察结果进行聚合聚类，MCT [33]是其多类概括，而RPA [31]则使用谱聚类。为了更好地处理相交模型，RansaCov [32]将多模型拟合公式化为集合覆盖问题。所有这些多模型拟合方法的共同之处在于，它们大多关注于抽样假设的分析和选择，而很少关注抽样过程本身。一些作品提出了改进的抽样方案，以增加在单实例情况下从所有内围最小集[12，5，35，15，48]生成准确模型假设的可能性值得注意的是，Brachmann和Rother [12]通过为每个数据点分配采样权重来训练神经网络以提高RANSAC的采样效率，从而有效地抑制离群值。很少有工作，如Chin等人的基于残差排序的条件抽样。”[14]或“引导超边缘采样”（Purkait et al）。[37]考虑多个实例的情况。与这些手工制作的方法相比，我们提出了第一个基于学习的条件采样方法。2.2. 消失点估计虽然消失点（VP）估计是更广泛的多模型拟合问题的一部分，但过去已经出现了各种专门设计用于解决此任务的算法[4，9，25，28，43，46，50，54，57，59]。虽然大多数方法与其他多模型拟合方法类似，但它们通常利用额外的特定于领域的知识。Zhai等人。[59]条件VP 估计水平线，他们通过卷积神经网络（CNN）从RGB图像中预测。Kluger等人[25]采用CNN预测初始VP估计，并使用特定任务的期望最大化算法对其进行优化[16]。Simon等人[43]在地平线上的条件 VP 也是如此。通用鲁棒拟合方法（诸如CONSAC）不依赖于这样的特定于域的约束。顺便说一下，这些关于VP估计的工作使用基于水平线而不是VP本身的度量进行评估。由于每个场景只能有一条水平线，这简化了在存在模糊性w.r.t.VP的数量，但最终掩盖了这些方法所设计的任务的性能差异通过比较，我们对VP本身进行了评价。图2：多假设生成：神经网络预测以状态s为条件的所有观测的采样权重p。类似于RANSAC的抽样过程使用这些权重来选择模型假设，并将其附加到当前的多实例假设M。状态%s已更新基于M，并反复输入神经网络3. 方法给定一组被离群值污染的噪声观测y∈ Y，我们试图拟合数据中明显的几何模型h的M个实例我们将所有模型实例的集合表示为M={h 1，. . .，hM}。CONSAC通过三个嵌套循环估计M，参见。图二、1. 我们通过RANSA C生成单个模型实例h-[19]由神经网络引导的采样这水平对应于图1的一行。二、2. We repeat single model instance generation while con-ditionally updating sampling weights.多个单一模型假设复合成多假设M。该水平对应于图的整体。二、3. 我们重复步骤1和2以独立地对多个多假设M进行采样。我们选择最好多假设作为最终的多模型估计M_∞。我们在下面更正式地讨论这些概念层次单模型实例抽样我们估计单个模型的参数，例如：一个VP，来自C个观测的最小集合，例如两条线段，使用最小解算器fS。如在RANSAC中，我们计算假设池H ={h 1，. - 是的- 是的，hS}的随机抽样。我们选择最佳的基于单实例的hypothesish评分函数gs。通常，gs被实现为内点计数-通过残差函数r（y，h）和阈值τ，多假设生成我们重复单个模型实例采样M次，以生成完整的多假设生成。4637J假设M，例如一个完整的一组消失点的图像。具体地，我们从它们各自的假设池Hm中选择M个模型实例hm。按顺序应用，在选择hm时，可以将先前选择的假设考虑到评分函数gs中：同时对状态S进行多假设条件化：YMp（M; w）= p（Hm|sm; w），m=1YS赫姆 =argmaxgs（h，Y，h）h∈Hm1：（m−1））的情况。（一）p（H|s; w）=s=1YCp（hs|s;w），（五）多假设采样我们重复前面的过程P次，以生成多假设池P={M1，. . . MP}。我们选择最好的多假设AC-根据多实例评分函数gm：M=argmaxgm（M，Y），（2）M∈P其中gm测量M中所有假设的联合内点计数，并且其中gm中的m代表多实例。3.1. 条件采样RANSAC从Y均匀地采样最小集合。对于Y中的大量离群值，与p（h）|s; w）=p（yc|s; w）。c=1注意，我们在对单实例假设池H进行采样时不更新状态s，而是仅在对多个假设M进行采样时更新状态s。我们在附录中提供了评分函数gy、gm和gs3.2. 神经网络训练应优化神经网络参数w，以增加对无异常值和伪异常值的最小集合进行采样的机会，这导致准确、完整和无重复的多实例估计如[12]中所述，我们最小化任务损失率（M）的expect，其意味着：要求对一个无离群值的最小集合进行采样，概率呈指数增长。Brachmann和Rother [12]相反，根据猫的观察结果进行采样确保估计的质量：L（w）=EPp（ P;w）ΣΣ（M）.（六）由神经网络w参数化的几何分布y∈p（y; w）。神经网络将采样偏置为-为了更新网络参数w，我们近似期望任务损失的梯度：从而得到生成精确假设的无离群值的极小集。虽然这种方法在存在离群值的情况下是有效的，但它不适合处理伪L（w）=E埃夫山口ΣΣ（M∂w、（7）由多个模型实例构成的离群值。顺序通过绘制K个样本Pkp（M; w）：RANSAC [51]在先前的se上进行采样选定的假设，即 yp（y|{h}1，. -是的-是的，hm−1}），通过re-∂ L（w）≈1ΣKΣ（MΣlogp（Pk;w）.（八）移动观测值已被视为来自Yaf的克拉夫k=1称为每个假设选择。同时能够减少我们可以从Eq. 7、既不吃亏，也不吃亏。伪异常值，这种方法可以M的填充程序必须是可区分的。如[12]，两者都不处理第一采样步骤中的伪异常值，也不具有一般的总异常值。相反，我们通过以状态s：y为条件的神经网络w来参数化条件分布，|s;w）。在实例采样步骤m_en处的状态向量s我们从方差中减去平均损失以减小方差。3.2.1监督训练如果地面实况模型Mgt={hgt，. . .，hgt}是可用的。m1G以有意义的方式对关于先前采样的假设的信息进行编码。我们使用所有观察结果的内点分数w.r.t.所有先前选择的假设作为状态sm。我们将观测y i的状态项sm，i定义为：可以，我们可以利用特定于任务的损失率（ h_s ，h_g_t）度量，计算单个地面实况模型m和估计h之间的误差。举例来说，消隐器可测量估计消失方向与真实消失方向之间的角度第一、然而，我们需要找到M>和sm，i= maxj∈[1，m）gy（yi，hj），（3）∂4638M. 我们计算一个成本矩阵C，其中Cij=his（hi，hgt），并将多实例损失定义为其中gy测量y是否是模型h的内围值。见图的最后一栏。二是国家形象化。我们独立地对多实例假设池进行采样YPp（P; w）= p（Mi; w），⑷i=1通过匈牙利方法得到的赋值[27] fH：n（Mn，Mgt）=fH（C1：min（M，G））。注意，我们仅考虑最多已经被首先选择的G模型估计hI.E.这一损失鼓励了早期选择好的模型假设，但并不惩罚后来的坏假设。46393.2.2自我监督训练在没有地面实况标签的情况下，我们可以通过用另一个质量度量来代替任务损失，以自我监督的方式训练CONSAC。我们的目标是最大化所选模型假设的平均联合内点计数：这种排序在数据中存在的实例的真实数量可能不明确的应用中是有用的，并且不太重要的实例可能是或可能不是感兴趣的。例如，场景中的小物体可能会引出它们自己的消失点，这对于某些应用可能看起来是虚假的，但对于其他应用可能是感兴趣的。gci（hm，Y）=1Σ|Y|Maxgi（yi，hj）.（九）|Y|j∈[1，m]i=1然后，我们将自我监督损失定义为：实例选择在某些情况下，也需要确定实例的数量M，但这是未知的事先，例如。用于将观测值唯一分配给ℓself(Mˆ ) = −ΣMgci（hm，Y）.（十）模型实例。对于这种情况，我们考虑子集M的实例M=1：q直到第q个模型实例h=q，Mm=1当量9单调增加w.r.t. m，并且当M中的模型引起最大可能的最小重叠内点集的大小下降时，具有其最小值对于自监督训练，我们发现在经验上有益的是添加加权正则化项κ·im，以惩罚已经被识别为内点的观测y的大采样权重： im（p m，i）=max（0，pm ，i+sm，i−1），其中sm，i是根据等式的内点得分。 3对于在实例采样步长m处的观测y i，以及pm，i是其归一化采样权重：p（yi|（s m;w）将联合内点计数增加至少0。注意，用于计算此时的联合内点计数的内点阈值θ可以与假设采样期间的内点阈值τ不同地选择。例如，在我们的单应性估计实验中，我们使用θ > τ以在欠分割和过分割之间取得平衡。4. 多模型拟合数据集稳健的多模型拟合算法可应用于各种任务。虽然早期的工作主要集中在合成问题上，例如将线拟合到被噪声和异常值人为干扰的点集[47]，但此后已将真实世界的数据集用于其他任务。Ade- laideRMF [55]数据集包含38个图像对，pm，i=maxy∈Y p（y|SM.（十一）; w）计算SIFT [29]特征点对应，通过单应性（同一平面）或有趣的方式聚集在一起，3.3. 测试时期望最大化为了细化所选的模型参数，我们实现了一个简单的EM[16]算法。考虑后验分布：damental matrices（相同的运动）。Hopkins 155 [49]包含155个图像序列，每个序列平均30帧。特征点的对应关系，以及通过其各自的运动也聚类。对于消失点估计，约克城市数据集（YUD）[17]包含p（h）|y）=p（y|h）p（h），其中p（y）=p（y）ΣMm=1p（y|（12）102个图像，每个图像具有三个正交的地面真实消失方向。所有这些数据集都有一个共同点，即它们的大小非常有限，没有或只有一小部分和li kp（y|h）=σ−1φ（r（y，h）σ−1）由正态分布建模，我们优化模型参数M，使得M = arg maxM p（Y），其中：Y|Y|ΣMp（Y）=p（yi|hm）p（hm），（13）i=1m =1使用固定的σ和p（h）=1对所有h。实例排序为了评估每个选定模型实例h的重要性，我们通过联合内点计数i计算置换πgreatest排序M。e.：Σ|Y|保留用于训练或验证的数据因此，它们很容易受到参数过拟合的影响，不适合当代机器学习方法。NYU消失点数据集因此我们引入NYU-VP数据集。基于纽约大学深度V2 [42]（NYU-D）数据集，它包含1449个室内场景的地面真实消失点标签，即它比其类别中以前最大的数据集大十倍以上;请参见Tab。一是比较。为了获得每个VP，我们手动注释了至少两个相应的线段。虽然大多数场景显示三个VP，但它的范围在一到八个之间。此外，我们还提供了从πm= argmaxQMaxj∈π1：m− 1<${q}i=1gi（yi，hj）. （十四）14640使用LSD的图像[52]，我们在实验中使用了条款。示例如图所示。3 .第三章。4641图3：来自我们新呈现的NYU-VP数据集的示例，其中有两个（左），三个（中）和五个（右）vanishing点。顶部：原始RGB图像。中间：用于生成地面实况VP的人工标记的线段。底部：自动提取的线段。任务数据集火车+价值测试实例H阿德莱德[55]0191–6F阿德莱德[55]0191–4霍普金斯[49]01552–3YUD [17]25773VPYUD+（我们的）25773–8NYU-VP（我们的）12242251–8表1：多模型拟合不同应用的数据集比较：消失点，单应性(H)和基本矩阵（F）拟合。我们比较了每个场景的组合训练和验证场景、测试场景和模型实例的数量。YUD+原始York Urban Dataset（YUD）[17]的每个场景都标记有正好三个VP，对应于与曼哈顿世界假设一致的正交方向。然而，几乎三分之一的场景包含多达五个额外的重要但未标记的VP。我们标记这些VP，以便更好地评估VP估计，不限于曼哈顿世界的场景。这个扩展的数据集，我们称之为YUD+，将与我们实验中使用的自动提取的线段一起提供。5. 实验对于条件采样权重预测，我们基于[12，58]的架构实现了一个神经网络我们在附录中提供了实现和训练细节，以及更详细的实验结果。5.1. 线拟合我们将CONSAC应用于将多条线拟合到一组具有离群值的噪声点的任务。为了训练，我们-创建了一个合成数据集：每个场景由随机放置的线和沿其均匀采样并受高斯噪声扰动的点以及均匀采样的异常值组成。在以监督的方式在该数据集上训练CONSAC之后，我们将其应用于[47]的合成数据集。图4示出了CONSAC如何根据已经选择了哪些模型假设来顺序地聚焦于场景的不同部分，以便增加对无离群值的非冗余假设进行采样的可能性。值得注意的是，网络学会了关注交叉点，而不是选择第一个实例的各条线。基于RANSAC的单实例假设采样确保CONSAC仍然选择单个线。5.2. 消失点估计消失点v∈Kd作为使用相机参数K的3D方向矢量d到图像平面上的投影而出现。平行线，即具有相同的方向d，因此在投影之后收敛于v如果v是已知的，那么对应的方向 d 可以通过求逆推导出来d<$K−1v。因此，VP从单个图像提供关于场景的3D结构的信息而两对应的线足以估计VP，但真实世界场景通常包含多个VP实例。我们将CONSAC应用于VP检测任务，并在我们新的NYU-VP和YUD+数据集以及YUD上进行评估[17]。我们比较其他几个强大的估计，也对特定任务的最先进的VP检测器。我们以监督的方式在NYU-VP的训练集上训练CONSAC，并使用相同的参数在NYU-VP，YUD+和YUDYUD和YUD+既不用于训练也不用于参数调整。值得注意的是，NYU-VP只描绘室内场景，而YUD也包含室外场景。图4：来自[47]的star5场景的线拟合结果。我们展示了CONSAC最终选择的多重假设的产生顶部：在每个实例选择步骤中具有估计线实例的原始点。中间：在每个实例步骤中采样权重。底部：州从选定的模型实例生成。4642J5.2.1评价方案我们通过3D中两个特定VP实例的对应方向之间的角度来计算两个特定 VP 实例之间的误差 e（hθ ，hgt）。设C是成本矩阵，其中Cij=e（hi，hgt）。我们可以在地面实况Mgt和esti之间找到匹配用匈牙利方法对C和C++进行配对，对匹配的VP对的错误进行筛选。然而，对于N > M，这将有益于具有过度分割倾向的方法，因为较大数量的估计VP通常增加找到与地面真实VP的良好匹配的可能性。另一方面，我们认为，严格的惩罚过度分割w.r.t.因为在标记期间可能已经错过的更小或更细粒度的结构可能仍然存在于数据中，所以基本事实是不合理的。因此，我们假设该方法还提供了置换π（参见秒3.3），其通过其显著性对估计的VP进行排名，并使用最多N个最显著估计进行评估。在匹配之后，我们为测试集的所有VP生成重新调用曲线，并计算面积曲线下面积（AUC）误差高达10μ m。我们报告了五次运行的平均AUC及其标准差5.2.2稳健估计量我们比较了T-连锁[30]，MCT [33]，Multi-X [6]，RPA[31]，RansaCov [32]和顺序RANSAC [51]。我们使用我们自己的实现T-链接和顺序RANSAC，而适应的代码由作者提供的VP检测的其他方法。包括CONSAC在内的所有方法都获得相同的线段（仅几何信息）作为输入，使用相同的残差度量和相同的内点阈值，并获得如第12节所述的置换π三点三作为Tab。2显示，CONSAC在所有三个数据集上的表现都远远超过了竞争对手。虽然CONSAC只在室内场景（NYU-VP）上训练，但它在室外场景（YUD/YUD+）上也表现良好。也许令人惊讶的是，序列RANSAC也表现良好，因此无视这种贪婪方法不能很好地工作的普遍看法。图5示出了CONSAC的定性结果。5.2.3任务特定方法除了通用的稳健估计器外，我们还评估了Zhai等人[ 59 ]、Kluger等人[ 59 ]的最先进的任务特定VP检测器。[25] Simon et al.[43]。与鲁棒估计器不同，这些方法可以使用额外的信息，如原始RGB图像，或强制执行额外的几何约束。Kluger等人的方法。为每个VP提供一个分数，我们使用它来生成置换π。对于Zhai等人，和Simon等人，我们采用了更宽松的朴素评估标准。尽管图5：NYU-VP测试集场景的VP拟合结果。上图：原始图像、提取的线段、对地面实况VP的分配以及对CONSAC预测的VP的分配（平均误差：二、2分）。中间：每个实例步骤中线段的采样权重。Bot- tom：从选定的模型实例生成的状态纽约大学副校长YUD+YUD [17]avg.STD.avg.STD. avg.STD.鲁棒估计器（在预提取的线段上）CONSAC六十五00。46七十七。10. 2483岁九点零分24T-linkage [30]五十七八点零分07七十二606779岁。2093Seq. RANSAC 五十三6040 69岁。10.57七十六。2075MCT [33]四十七00。6762. 71. 2867岁7059多功能X [6]41岁31. 0050块608055. 31. 00RPA [31]39岁4065四十八5.1.1452岁5.1. 35[32]第三十二话7 .第一次会议。九点零分62十三岁41.76十三岁91.49特定任务方法（完整信息）Zhai [59]†63岁00。25 七十二10.5084. 2069西蒙[43]†62. 10. 67七十三。6077八十五10.74克鲁格[25]61岁7 -*74岁7 -*八十五9-*表2：VP估计：平均AUC值（平均值，以%计，越高越好）和它们的标准偏差（std.）在我们新的NYU-VP和YUD+数据集以及YUD [17]上进行了五次以上的消失点估计。* 不适用因†朴素评价指标。因此，CONSAC在NYU-VP和YUD+上的性能优于所有任务特定的方法，在YUD上稍差。5.3. 双视图平面分割给定来自示出相同场景的不同视图的两个图像的特征点对应，我们估计符合场景中的不同3D平面的多个单应性H由于没有足够大的标记数据集用于此任务，我们使用从[22，44，56]的运动结构场景中4643提取的SIFT 特征对应来训练我们的方法自监督（ CONSAC-S ）， [12] 也使用了该方法。在AdelaideRMF [55]单应性估计数据集上进行评价，并遵守[7]使用的方案，即。我们重新-4644图6：AdelaideRMFunihouse场景的单应性拟合结果上图：左图像和右图像、带有地面实况标签的特征点以及带有CONSAC-S预测标签的特征点（ME：8.4%）。中间：在每个实例步骤中对特征点的权重进行采样。底部：从选定模型实例生成的状态阿德莱德RMF-H [55]avg.STD.CONSAC-S五、21六、46[7]第七话六、86五、91[6]第六话8. 718. 13序贯RANSAC11个国家。1410个。54PEARL [23]*十五岁14六、75MCT [33]†十六岁2110个。76[31]*23岁54十三岁42[30]第三十话五十四79二十二岁17[32]第三十二话66岁。88十八岁44表3：单应性估计：平均误分类错误（平均，以%计，越低越好）和它们的标准偏差（std.）在AdelaideRMF[55]数据集上进行五次单应性拟合。* 结果来自[7]。†使用作者提供的代码计算的结果。端口的平均误分类错误（ME）和它的标准偏差在所有场景的五个运行使用identi- cal参数。我们比较了稳健估计器Progressive-X [7]，Multi-X [6]，PEARL [23]，MCT [33]，RPA [31]，T-连锁[30]，RansaCov [32]和顺序RANSAC [51].5.3.1结果由于[33]的作者使用了不同的评价方案，我们使用作者提供的代码重新计算了MCT的结果。对于顺序RANSAC，我们使用自己的实现。其他结果来自[7]，如表1所示3 .第三章。CONSAC-S的性能优于最先进的Progressive-X，平均ME显著降低值得注意的是，顺序RANSAC 在该任务上也表现良好。图 6 示出了CONSAC-S的定性结果。表4：消融研究：我们计算CONSAC变化的平均AUC（NYU- VP）、平均ME（AdelaideRMF [55]）和标准差。参见第5.4详情5.4. 消融研究我们进行消融实验，以突出几种方法选择的有效性。作为Tab。4表明，具有EM细化的CONSAC在消失点和单应性估计上始终表现最好。如果我们禁用EM细化，准确性会显著下降，但仍保持与最先进水平相当（参见。选项卡. 2、Tab。（3）第三章。在NYU-VP上，我们可以观察到，自监督训练的CONSAC-S实现了最先进的性能，但仍被以监督方式训练的CONSAC超越。训练CONSAC-S，不使用内点掩蔽正则化（IMR，参见秒3.2.2）显著降低了准确性，而仅使用IMR进行训练并禁用自我监督损失会产生较差的结果。切换到 CONSAC （ NYU-VP ）或 CONSAC-S（AdelaideRMF）的无条件采样会导致性能显著下降，类似于将普通 NG-RANSAC [12] 转换为顺序RANSAC。6. 结论我们已经提出了CONSAC，第一个基于学习的鲁棒估计器，用于在存在噪声和离群值的情况下检测多参数模型。神经网络学习将模型假设选择引导到数据的不同子集，依次找到模型实例我们已经将CONSAC应用于消失点估计和多单应性估计，实现了这两项任务的最新我们贡献了一个新的数据集消失点估计，促进监督学习的多模型估计，而不是CONSAC，在未来。致谢这项工作得到了DFG赠款COVMAP（RO 4804/2-1和RO 2497/12-2）的支持，并获得了欧洲研究理事会（ERC）在欧盟地平线2020计划下的资助（赠款编号：2020）。647769）。纽约大学副校长阿德莱德avg.STD.avg.STD.EM细化CONSAC六十五010的情况。46--CONSAC-S63岁440的情况。40五、21六、464645引用[1] 作者：陈文辉，陈文辉.Seitz和Richard Szeliski。一天建成罗马。Commun. ACM，2011年。1[2] Hassan Abu Alhaija ， Siva Karthik Mustikovela ， LarsMescheder，Andreas Geiger，and Carsten Rother.增强现实与计算机视觉的结合：城市驾驶场景的高效数据生成。IJCV，2018年。1[3] PaulAmayo，PedroPini e's ，LinaMPaz，andPaulNewman.基于凸松弛算法的几何多模型拟合在CVPR，2018年。2[4] Michel Antunes和Joao P Barreto。一种检测消失点和相互正交消失方向的全局方法。CVPR，2013。3[5] Daniel Barath和Jiˇr´ı Matas。图形切割RANSAC。在CVPR，2018年。3[6] 丹尼尔·巴拉斯和吉瑞·麦塔斯基于能量最小化和模式搜索的多类模型拟合。在ECCV，2018。二七八[7] 丹尼尔·巴拉斯和吉瑞·麦塔斯Progressive-X：高效、任意时间、多模型拟合算法。 ICCV，2019。二三七八[8] 丹尼尔·巴拉斯，吉瑞·马塔斯，和莱文特·哈德尔。Multi-H：立体图像中切平面的有效恢复。在BMVC，2016年。2[9] 奥尔加·巴里诺娃，维克多·兰皮斯基，埃琳娜·特雷蒂亚克，还有"推见面"，科利.人造环境中的几何图像解析ECCV，2010年。3[10] Eric Brachmann ， Frank Michel ， Alexander Krull ，Michael Ying Yang ， Stefan Gumhold ， and CarstenRother.从单个RGB图像对对象和场景进行不确定性驱动的6D姿态估计。在CVPR，2016年。1[11] Eric Brachmann和Carsten Rother。学习越少越好-通过3D表面回归进行6D相机定位。在CVPR，2018年。1[12] Eric Brachmann和Carsten Rother。神经引导RANSAC：学习在哪里采样模型假设。在ICCV，2019年。二三四六七八[13] Tat-Jun Chin，Hanzi Wang，and David Suter.多个结构的稳健拟合：统计学习方法。ICCV，2009年。二、三[14] 陈达俊，金宇，大卫·苏特。通过偏好分析加速多结构数据的假设生成TPAMI，2011年。3[15] Ondrej Chum和Jiri Matas。与PROSAC匹配-渐进式样本共识。在CVPR，2005年。3[16] Arthur P Dempster，Nan M Laird，and Donald B Rubin.通过EM算法从不完整数据中获得最大似然。英国皇家统计学会杂志：B辑（方法学），1977年。三、五[17] Patrick Denis，James H Elder，and Francisco J Estrada.有效的基于边缘的城市图像曼哈顿帧估计方法ECCV，2008年。二五六七[18] Daniel DeTone，Tomasz Malisiewicz，and Andrew Rabi-novich.深度图像单应性估计。在RSS工作-商店，2016. 2[19] Martin A Fischler 和 Robert C Bolles 。 Random SampleConsensus：一个模型拟合的范例，应用于图像分析和自动制图。Commun. ACM，1981年。一、二、三[20] Adriano Garcia，Edward Mattison，and Kanad Ghose. 四轴飞行器的高速视觉自主室内导航2015年国际无人机系统会议（ICUAS），第338-347页1[21] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社，2004年。1[22] Jare dHeinly， JohannesLutzScho¨nber ger ， EnriqueDunn ，and Jan-Michael Frahm.重建世界 * 在六天 *（由雅虎1亿图像数据集捕获）。CVPR，2015。1、7[23] Hossam Isack和Yuri Boykov基于能量的几何多模型拟合。IJCV，2012年。二、八[24] AlexKendallMatthewGrimes 和 RobertoCipollaPoseNet：用于实时6-DoF摄像机重新定位的卷积网络在ICCV，2015年。2[25] Florian Kluger ， Hanno Ackermann ， Michael YingYang，and Bodo Rosenhahn.使用逆日晷投影进行消失点检测的深度学习。在GCPR，2017年。三、七[26] Florian Kluger ， Hanno Ackermann ， Michael YingYang，and Bodo Rosenhahn. 时间一致的地平线。在ICRA，2020年。1[27] 哈罗德·库恩。指派问题的匈牙利方法。1955年海军研究后勤季刊。4[28] 何塞·莱扎马、拉斐尔·格罗彭·冯·吉欧、格雷戈里·兰德尔和让·米歇尔·莫雷尔。通过图像原始域和对偶域中的点对齐来寻找消失点。CVPR，2014。3[29] David G.洛从尺度不变关键点中提取独特的图像特征。IJCV，2004年。一、五[30] Luca Magri和Andrea Fusiello。T-连接：用于多模型拟合的j-连接的连续松弛。CVPR，2014。二三七八[31] Luca Magri和Andrea Fusiello。具有偏好分析和低秩近似的鲁棒多模型拟合在BMVC，2015年。二三七八[32] Luca

下载后可阅读完整内容，剩余1页未读，立即下载