基于深度学习的鲁棒基本矩阵估计方法

93 浏览量更新于2023-10-13 收藏 789KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

深层基本矩阵估计Rene 'Ranftl和Vladlen Koltun英特尔实验室抽象。我们提出了一种方法来鲁棒估计的基本矩阵的噪声数据污染的离群值。该问题被转换为一系列加权齐次最小二乘问题，其中使用深度网络估计鲁棒权重。所提出的公式直接作用于假定的对应关系，因此适合于执行特征提取、匹配和模型拟合的标准3D视觉流水线该方法可以被端到端地训练，并且产生计算上高效的鲁棒估计器。我们的实验表明，所提出的方法是能够训练强大的估计，outper-form经典的方法对真实数据的显着保证金。1介绍深度学习在计算机视觉问题上已经显示出有希望的结果，例如图像分类[20]，图像分割[24]和对象检测[10]。深度学习成功解决的许多问题都有一个共同的特点：从输入到输出的映射很难通过显式数学建模来表征对于上述应用尤其如此，其中甚至像什么实际上构成特定类的对象这样的简单问题也不能以适合于数学建模的简单方式来回答[11]。因此，像深度学习这样能够直接从大型数据库中学习表示的方法在这些任务中必然是优越的。另一方面，某些计算机视觉问题，如基本矩阵估计，可以以精确的数学方式定义，前提是对数据进行一些假设[12]。因此，这些子领域在很大程度上没有受到最近深度学习研究激增的影响也就不足为奇了。然而，能够以精确的数学方式定义问题并不一定意味着它可以轻松解决。我们认为，强大的基本矩阵估计可以更准确地解决，如果估计可以适应手头的数据。例如，在汽车场景中，并非所有基本矩阵都同样可能出现。事实上，由于平台始终表现出主导的向前或向后运动，因此在这种情况下可能发生的基本矩阵的空间比基本矩阵的完整空间小得多。另一个示例是偏离高斯内层噪声的常见假设的数据。使模型拟合方法适应不同的内点噪声分布需要专家的大量努力，但是如果可以从数据中学习噪声分布，则可以变得容易得多。在这项工作中，我们提出了一种方法，能够学习一个强大的算法，从数据的基本矩阵估计。我们的方法将深度网络与2R. Ranftl和V.Koltun定义明确的算法结构，并且可以端到端进行训练。与针对该问题的朴素深度学习方法相比，我们的方法将局部运动估计和几何模型拟合分开，从而简化了训练问题和可解释的估计流水线。因此，它可以作为RANSAC [7]系列算法通常采用的应用程序的直接替代品[27，35]。为了实现这一点，我们将鲁棒估计问题公式化为一系列加权齐次最小二乘问题，其中使用深度网络估计权重。不同的现实世界的数据集上的实验表明，所提出的方法可以显着优于RANSAC及其变种。我们的实验还表明，通过所提出的方法训练的估计器在数据集上泛化。作为一个支持的结果，我们还表明，所提出的方法产生国家的最先进的单应性估计的准确性。2相关工作稳健的基本矩阵估计，以及更一般的几何模型拟合，是计算机视觉中的一个基本问题，通常出现在3D处理任务中[12]。共同的出发点是首先导出无离群值数据的估计量。然后可以采取各种措施来导出可以处理一定量的离群值的鲁棒估计器也许处理离群值最广泛使用的方法是随机抽样一致性（RANSAC）[7]，其中使用随机抽样搜索以内点形式（基于一些特定问题的点到模型距离和用户定义的内点阈值定义）具有最多支持的几何模型存在大量关于这个基本思想的变体的文献[5，30，21，39，37，36]。这些作品的共同点是算法的一般结构。首先，对一组点进行采样，并使用非鲁棒基线估计器来估计模型。其次，通过评估所有点上的鲁棒评分函数来对模型进行评分，并且如果模型的得分优于所有先前评分的模型，则该模型被接受为当前最佳猜测。重复该过程，直到达到某个停止标准。基于采样的方法共有的一个共同弱点是它们依赖于明确定义模型所需的最小数据点数量。随着最小集合的大小增加，至少采样一个离群值的概率呈指数级上升。注意，RANSAC已经被集成到用于相机定位的深度场景坐标回归流水线[3]中这种方法使用有限差分反向传播通过非鲁棒的基础估计，并继承了RANSAC的基本弱点另一条工作线采用共识集最大化的基本思想，但使用全局最优方法进行优化[22，44]。由于潜在的优化问题是NP难的，这些方法通常非常慢，在最坏的情况下会退化到穷举搜索虽然在加速全局最优一致性集合最大化方面已经取得了一些进展[4]，但所有已知的方法都明显慢于随机化算法，并且通常缺乏解决任意几何模型拟合问题的灵活性。深层基本矩阵估计3可以使用M-估计量[49，8，14，50]直接对基本估计量进行鲁棒化。这项工作与所提出的方法关系最密切，因为它通常是- 盟友导致一系列加权最小二乘问题。这些方法的主要缺点是它们需要仔细的初始化和/或继续过程。此外，这些方法通常隐含地假设内点经受高斯噪声，这可能并不总是这种情况。相比之下，所提出的方法将深度学习应用于3D处理任务的兴趣越来越大。DeTone等人学习神经网络直接从一对输入图像回归到单应性[6]。这项工作后来扩展了基于图像的损失，以允许无监督训练[28]。Agrawal等[1]使用神经网络作为高级任务的预训练步骤来估计自我运动PoseNet [17，16]采用卷积网络来估计给定图像的姿态以进行相机重新定位。给定来自单目相机的两个连续帧，DeMoN架构[41]提供对每个像素的深度的估计和对帧之间的运动的估计。所有这些模型的一个共同特征是，它们不强制执行问题的内在结构，超出了它们的参数化和训练损失。因此，需要大量的训练数据，并且泛化性能通常是一个问题。一个值得注意的例外是Rocco等人的方法。[31]其中在特征提取、匹配和模型估计的经典阶段之后建模。然而，请注意，模型估计器再次是一个深度回归器，与这些工作相反，我们的方法直接对假定的匹配进行操作，独立于这些匹配是如何获得的。关键点检测和匹配仍然是独立的步骤。因此，我们的方法可以被用来作为一个下降的替代在管道中， RANSAC 和类似的算法，目前employed。我们认为，考虑到该领域缺乏大规模数据集，使用深度学习来处理3D处理的这种模块化方法是非常可取的。学习3D重建系统的不同子部分要容易得多，例如分别进行特征匹配[45，34]和模型估计，因为为这些子问题生成真实的训练此外，模块化方法导致解缠的中间表示，这显著增强了流水线的可解释性。机器学习技术已被应用于鲁棒性和加速优化问题。Andrychowicz等人[2]使用神经网络来寻找梯度下降算法的更新方向。在[42]中给出了学习用于点云配准的定点迭代的框架。这些方法不直接适用于基本矩阵估计，因为梯度下降不能被平凡地应用。3预赛我们将维度d的输入数据的单个元素称为点pi∈Rd。设P∈P=RN×d是维数为d的点的集合，其中包含N个（不一定是不同的）点。我们用（P）i来表示矩阵P的第i行. 注意4R. Ranftl和V.Koltun我我J点可以是某个度量空间中的点，或者在基本矩阵和单应性估计点对应的情况下（例如，在这种情况下，我们通过连接两个图像坐标的Put iv e对应piParticippi′），得到p i ∈ R 4。在许多几何模型拟合问题中，提出了一种齐次最小二乘优化方法。问题出现：尽量减少XΣNi=1n（A（P））i·x2服从x=1，（1）其中x∈Rd′定义模型参数，A：P →RkN×d′（kN≥d′，k >0）是数据点的问题特定映射注意，（1）允许闭合形式的解。出现这种形式的优化问题的算法的流行示例是用于基本矩阵估计的八点算法[13]、直接线性变换（DLT）[12]和一般总最小二乘拟合。考虑超平面拟合作为一个简单的例子。设（n，c）指定一个法线为n、截距为c的超平面。超平面拟合的目标是从一组点P推断（n，c）。为了在完全最小二乘意义上拟合超平面，我们有1ΣNA（P）∈RN×d，（A（P））i=p−Nj=1p.（二）用这个定义求解（1）允许我们使用将x映射到模型参数的模型提取函数g（x）来提取平面g（x）=.x，−x·1NΣ⊤ΣNpii=1=（n，c）。（三）如果数据没有异常值，则最小二乘解将接近真实解（取决于内点噪声分布和问题的具体形式）。然而，在实际应用中，数据通常包含异常值。(Even更糟糕的是，可能存在比内点更多的离群点。）在最小二乘意义上解决估计问题将产生错误的估计，即使在存在单个离群值的情况下。许多工作已经进入寻找几何模型拟合的鲁棒方法[7，39，30，14]。一种可能的解决方案是将鲁棒损失函数Φ应用于（1）中的残差。由此产生的优化问题不承认一般的封闭形式的解决方案。近似求解优化问题的一种实用方法是通过求解一系列重新加权的最小二乘问题[38]：ΣNxj+1= arg minw（pi，xj）（A（P））i·x2，（4）x：x=1 i=1其中权重w的确切形式取决于Φ和手头的几何模型深层基本矩阵估计5>0回到超平面拟合示例，假设如果pi是内点，则w（pi，Xj）=wi=1，否则w（pi，Xj）=wi=0。很明显，给定这些权重，通过设置以下项，可以在（4）的单次迭代中恢复正确的模型ΣNwp.ΣNΣWP（A（P）） = p−j=1jj，g（x）=x，−x·j=1J J.（五）iiΣNj=1wjΣNj=1wj提前知道权重是一个先有鸡还是先有蛋的问题。一方面，如果我们知道真实的模型，我们就可以很容易地将内点与外点分开。另一方面，如果我们知道哪些点是内点，我们就可以直接恢复正确的模型。在下文中，我们将展示在许多情况下，可以使用具有适当结构的深度网络来合理地估计权重。4深度模型拟合我们的方法受到（4）的结构的启发。它可以被认为是一个迭代重加权最小二乘算法（IRLS）与复杂的，学习的重加权函数。由于我们正在从数据中学习权重，因此我们希望我们的算法能够在以下一个或多个假设为真时优于通用方法(1)输入数据承认可以学习的内点和离群点分布中的规律性。一个示例将是近似均匀并且与内点噪声分布充分不同的离群点分布。这是一个温和的假设，实际上已经在以前的基于采样的方法中被利用[39]。(2)该问题具有有用的边信息，可以集成到重新加权函数中一个示例是匹配分数或关键点几何形状。(3)输出空间是模型参数的完整空间的子集。一个示例将是用于安装在汽车或轮式机器人上的相机的基本矩阵估计。我们将在实验评估中表明，如果数据中存在规律性，我们的方法确实能够优于通用基线，而当数据中没有明显的规律性时，我们的方法具有在下文中，我们采用算法（4）的一般结构，但不假设权重函数w的简单形式。相反，我们使用深度网络对其进行参数化，并从数据中学习网络权重，以便整个算法能够得到准确的估计。我们的方法可以被理解为一个元算法，学习一个复杂的和问题相关的版本的IRLS算法与未知的成本函数。我们表明，这种方法可以很容易地集成到问题的边信息，这可以增强和鲁棒的估计。模型估计量我们首先描述我们方法的基本构建块，即（4）的一个版本，其中权重由深度网络参数化，并将讨论如何端到端训练网络。我们首先重新定义权函数当w：P × S ×Rd′→（R）N时，S∈ S=RN×s收集边信息其可用于每个点。请注意，此函数是全局定义的，因此各个点可以相互影响由于w可以是非平凡函数，我们6R. Ranftl和V.Koltun我通过具有权重θ的深度网络将其参数化。利用该参数化，算法（4）中的单个步骤变为ΣNxj+1= arg min（w（P，S，xj; θ））i（A（P））i·x2.（六）x：x=1 i=1问题是如何找到一个参数化θ，导致稳健和准确的估计。为了符号简洁，我们现在放弃对对应关系和边信息的显式依赖，并移动到矩阵形式：j+1¨j¨2x = arg min<$ W（θ）Ax

下载后可阅读完整内容，剩余1页未读，立即下载