基于零特征值损失的深度学习框架及其在计算机视觉中的应用

56 浏览量更新于2023-10-13 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于零特征值损失的郑当1、2[0000−0003−2028−6096]，Kwang Moo Yi3[0000−0001−9036−3822]，Yinlin Hu4[0000−0003−2614−5200]，Fei Wang 1、2[0000−0003−3462−8472]，Pascal Fua4[0000−0002−6702−9970]和Mathieu Salzmann4[0000−0002−8347−8637]1视觉信息处理与自动化国家工程实验室，西安交通大学，99YanxiangRoad，中国2电子技术和信息系统，Xi'an J i aon g U ivrit y，28 W e s t X i a nin g R o ad，Xi网址：dangzheng713@stu.xjtu.edu.cn，wfx@mail.xjtu.edu.cn3加拿大维多利亚大学视觉计算组kyi@uvic.ca4CVLab，EPFL，瑞士{yinlin.hu，pascal.fua，mathieu.salzmann}@ epfl.ch抽象。许多经典的计算机视觉问题，例如基本矩阵计算和从3D到2D对应的姿态估计，可以通过找到对应于表示线性系统的矩阵的最小或零特征值的特征向量来解决将其纳入深度学习框架将使我们能够显式地编码已知的几何概念，而不是让网络从数据中隐式地学习它们。然而，在网络内执行本征分解需要区分此操作的能力。虽然理论上可行，但这在实践中在本文中，我们引入了一种无特征分解的方法来训练深度网络，其损失取决于与网络预测的矩阵的零特征值对应的特征向量我们demonstrate的几个任务，包括关键点匹配和3D姿态估计，我们的方法是更强大的比显式微分的特征分解。它具有更好的收敛性能，并在这两项任务上产生最先进的结果。关键词：端到端学习，特征分解，奇异值分解，几何视觉。1介绍在传统的计算机视觉中，许多任务可以通过找到对应于编码线性系统的矩阵的最小（通常为零）奇异值或特征值的奇异向量或特征向量来解决示例包括估计基本2Z. 该死，K。Yi，Y.Hu，F.Wang，P.Fua，M.Salzmann从匹配的关键点的矩阵或单应性，以及从3D到2D对应计算姿态。在深度学习时代，人们越来越有兴趣将这些方法嵌入到深度架构中，以实现端到端训练。例如，最近已经证明，这种方法可以用于训练网络来检测和匹配图像对中的关键点，同时考虑对应关系的全局一致性[37]。更一般地说，这种方法将允许我们在深度网络中显式地编码几何概念，从而使网络无需重新学习几十年来已知的东西，并使其能够从少量的训练数据中学习。实现这种方法的一种方法是设计一个网络，其输出定义一个矩阵并对其进行训练，以便其产生的矩阵的最小奇异向量或特征向量尽可能接近地面真实值。这是在[37]中使用的策略，用于同时建立对应关系并计算关于特定本质矩阵的特征向量：该特征向量的输出用于区分内点对应关系与离群点，并用于组装辅助矩阵，该辅助矩阵的最小特征向量是所实现这种方法的主要障碍是，它需要能够以稳定的方式区分奇异值分解（SVD）或特征分解（ED）来训练网络，这是一个已经受到相当大关注的非平凡问题[26，9，16]。因此，这些分解已经是标准深度学习框架的一部分，例如TensorFlow [1]或PyTorch [27]。然而，他们忽略了两个关键的实际问题。首先，当相对于矩阵本身或相对于定义它的参数进行优化时，对应于最小奇异值或特征值的向量可能会随着这些值的相对幅度的变化而突然切换，这基本上是不可微的。这在图1的示例中示出。1，在第2节中详细讨论。其次，计算梯度需要除以两个奇异值或特征值之间的差，其可以是零。虽然在[26]中提出了后者的解决方案，但前者是不可避免的。因此，在本文中，我们介绍了一种训练深度网络的方法，该深度网络的损失取决于与矩阵M的零特征值对应的特征向量，该特征向量是网络的输出或网络的函数，而无需显式执行SVD或ED。我们的损失是完全可区分的，不会受到上述问题可能导致的不稳定性的影响，并且可以自然地纳入深度学习架构中。在实践中，因为图像测量从来都不是完美的，所以特征值从来都不是严格为零的。然而，这也不影响计算，这使得我们的方法对噪声具有鲁棒性。为了在深度学习的背景下证明这一点，我们评估了我们的方法在训练网络的任务中使用基本矩阵找到全局一致的关键点对应关系，并训练另一个网络在解决透视n点（PnP）问题时去除姿态估计的离群值。在这两种情况下，我们的方法都提供了最先进的结果，而使用标准无特征分解损失3（一）（b）第（1）款图1：特征向量切换。(a)位于平面上的3D点以黑色显示，远处的离群点以红色显示。（b）当分配给所有点的权重都是1时，对应于最小特征值的特征向量是esub，即（a）中蓝色显示的向量，在（b）的顶部右侧，我们通过降低特征值对特征向量进行排序。随着优化的进行和分配给异常值的权重的减小，对应于最小特征值的特征向量切换到e噪声，即（a）中以绿色示出的向量，这引入了梯度值的急剧变化。在张量流中提供的奇异值和特征值分解的实现导致学习过程不收敛或显著更差的性能。2动机为了说明与区分特征向量和特征值相关联的问题，考虑图1所描绘的离群值拒绝玩具示例1.一、输入是位于平面上并以黑色绘制的3D点，以及以红色显示的异常3D点，我们假设该点距离平面非常远。假设我们想给每个点分配一个二进制权重（1表示内点，0表示离群点），使得对应于加权协方差矩阵的最小特征值的特征向量当分配给异常值的权重为0时，它将是e噪声，它也是平面的法线，并以绿色显示。然而，如果在优化期间的某个点处，通常在初始化时，我们将权重1分配给离群值，则e噪声将对应于最大特征值而不是最小特征值，并且对应于最小特征值的特征向量将是以蓝色示出的向量esub，其垂直于e噪声。因此，如果我们最初将所有权重设置为1并对其进行优化，使得最小特征向量接近平面法线，则梯度值将取决于esub的坐标。在优化期间的一个点处，如果一切顺利，则分配给异常值的权重将变得足够小，使得最小特征向量从e_sub切换为e_noise，这在梯度向量中引入了大的跳跃，其值现在将取决于e_noise而不是e_sub的坐标。4Z. 该死，K。Yi，Y.Hu，F.Wang，P.Fua，M.Salzmann在这个简单的例子中，这种不稳定性并不妨碍最终的收敛。然而，在更复杂的情况下，我们发现它确实如此，正如我们的实验所证明的那样。这个问题已经在[37]中在学习关键点对应的上下文中指出。为了规避这个问题，[37]中的算法必须首先依赖于分类损失来确定潜在的内点对应性，然后基于基本矩阵并入损失以施加几何约束，这需要特征分解。这确保了网络权重已经足够好，以防止在开始最小化基于几何的损失时发生特征向量切换3相关工作近年来，将几何方法和数学工具集成到深度学习框架中的需求导致了其中一些在网络术语中的重新表述例如，[17]考虑使用CNN对图像区域进行空间变换。在[10]中扩展了这种变换的集合。在不同的上下文中，[24]导出了可以集成到深度学习框架中的Cholesky分解的微分。不幸的是，这些方法可以处理的几何计算机视觉问题的集合仍然相对有限。特别是，没有广泛接受的深度学习方法来解决许多几何问题，这些问题归结为寻找线性系统的最小二乘解。在这项工作中，我们考虑两个这样的问题：从图像对中的关键点对应关系计算基本矩阵，并从3D到2D对应关系估计对象的3D姿态，我们在下面简要讨论这两者。从对应关系估计基本矩阵。这个问题的基于特征值的解决方案已经知道了几十年[23，12，11]，并且仍然是计算基本矩阵的标准方法[25]。这一领域研究的真正重点是建立可靠的关键点对应关系并消除异常值。在这种情况下，RANSAC [7]的变体，例如MLESAC [33]和最小二乘（LMeds）[29]以及最近的GMS [2]，已经变得流行。对于这些方法的全面研究，我们请感兴趣的读者参考[28]。随着深度学习的出现，有一种趋势是远离这种几十年的知识，而是应用黑箱方法，其中训练深度网络以直接估计旋转和平移矩阵[38，34]，而无需先验几何知识。[37]的最新工作试图通过将几何约束嵌入到深度网络中来协调这两种相反的趋势，并且在难以建立对应关系时证明了该任务的优越性能从3D到2D对应性估计3D姿态。这被称为透视n点（PnP）问题。它也已经被研究了几十年，并且也适用于基于特征分解的解决方案[11]，多年来已经提出了许多变体[21，19，40，6]。DSAC [3]是无特征分解损失52sym、i/= j我们所知道的将PnP求解器集成到深度网络中的唯一方法。由于通过PnP求解器显式区分不是优化友好的，因此作者应用了强化学习文献中使用的日志技巧。这相当于使用来自随机样本的导数的数值近似，鉴于存在分析替代方案，这是不理想的。此外，DSAC仅适用于网格配置和已知场景。通过对比，我们在这项工作中提出的方法具有解析形式，不需要随机抽样。区分特征值和奇异值分解无论是计算基本矩阵、估计3D姿态还是解决任何其他最小二乘问题，将特征分解求解器并入深度网络都需要区分特征分解。这种导数的表达式在[26，9]中给出，并在[16]中用与反向传播兼容的术语重新表述。具体地说，如[16]所示，对于矩阵M写为M = UΣUT，特征向量U相对于用于计算导数的矩阵为.TΣdU=2UK⊙（UdMU），（1）其中Ssym =1（ST + S），并且Kij =.1σi−σ j0，i=j.（二）从Eq. 2，如果两个特征值相等，即σi=σj，则分母变为0，从而产生数值不稳定性。奇异值分解也是如此。在[26]中提出了对此的解决方案，并且奇异值和特征值分解已经在深度网络中用于所有奇异值都被使用并且它们的顺序不相关的问题[14，15]。在谱聚类的上下文中，[20]的方法还提出了一种解决方案，该解决方案消除了对显式特征分解的需要。然而，该解决方案专用于其中寻求使用所有非零特征值的场景，假设矩阵具有恒定秩。在这里，相比之下，我们解决的问题，重要的是一个单一的本征值或奇异值。在这种情况下，特征值的顺序很重要。然而，这个顺序在训练过程中可能会改变，这会导致从一个特征向量到另一个特征向量的不可微切换，就像第2节的玩具例子一样。反过来，这导致数值不稳定性，这可能会阻止收敛。在[37]中，这个问题通过首先使用不依赖于特征向量的分类损失来训练网络来解决。只有当找到足够好的解时，也就是说，一个解足够接近于正确的解，使得矢量切换不再发生时，依赖于与最小特征值相关联的特征矢量的损耗项才被打开。正如我们稍后将展示的，我们可以通过导出更鲁棒的、无特征分解的损失函数来实现最6Z. 该死，K。Yi，Y.Hu，F.Wang，P.Fua，M.Salzmannθǁ − ǁθθθθθθ4我们的方法我们介绍了一种方法，使我们能够与对应于零特征值的特征向量的工作在一个端到端的学习形式主义，同时既不受梯度不稳定性，由于矢量切换在第2节中讨论，也没有重复的特征值所造成的困难为此，我们推导出一个损失函数，该损失函数直接对我们感兴趣的特征向量或奇异向量的矩阵进行运算，但不显式地执行SVD或ED。下面，我们首先讨论一般的场景，其中感兴趣的矩阵直接是网络的输出。然后，我们考虑稍微复杂一点的情况，即网络预测权重，这些权重本身定义了对应于我们的应用场景的权重。请注意，虽然我们在深度学习的背景下讨论了我们的方法，但它适用于任何优化框架，其中寻求基于矩阵的最小特征向量相对于定义该矩阵的参数来优化损失函数4.1通用场景给定一个输入测量值x，让我们用fθ（x）表示一个参数为θ的深度网络的输出。在这里，我们考虑网络的输出是矩阵的情况，我们写为Aθ=fθ（x）。我们的目标是解决网络的损失函数依赖于AT Aθ的最小特征向量eθ的问题，这确保了矩阵是对称的。具体地，可以使用公式θ的约2个值e~2，其中e~是最小的真值特征向量。解决这个问题的标准方法，如[16，37]所述，包括明确区分这种损失w.r.t.eθ，则eθ w.r.t.Aθ和最后Aθ w.r.t. θ通过反向传播。然而，如上所述，这不是优化友好的。为了克服这一点，我们建议定义一个新的损失的线性方程，定义特征向量和特征值。具体地，如果eθ是本征函数-AT Aθ的特征值为λ的向量，满足AT Aθ eθ =λ eθ。由于特征向量θ θ具有单位范数，即，eT eθ = 1，将该等式的两边乘以左为e Te TA TA θ e θ= λ。（三）θ θ本文考虑零特征值问题，即λ= 0。以来A TAθ是半正定的，对任意e，我们有e TA TAθ e≥ 0给定如果您希望查看要执行的原始操作，请使用以下命令完成损失函数Leig（θ）=e~TATAθe~。（四）因此，该损失旨在找到具有最小特征值（即，在我们的情况下为零）的结果矩阵A T A θ的特征向量，假设我们可以真正达到损失的全局最小值。然而，仅这个损失就有多个全局最优解，包括平凡的Aθ =0。无特征分解损失7·θNθ×θAθ AθθθAθ Aθ为了解决这个问题，我们注意到，这个平凡的解决方案不仅具有一个零本征值，而且具有所有的本征值。因此，在实践中，我们通常搜索具有单个零特征值的矩阵，我们提出最大化数据沿着正交方向的投影。可以通过利用由（I-e ~e~T）给出的用于e ~的子组件来实现这种预连接，其中，i是rix处的标识符。BydefiningA<$θ=Aθ（I−eeT），我们可以将重新写入或丢失的函数定义为L~（θ）=e~TATAe~−. ¯ T¯Σ、（五）其中tr（）计算矩阵的迹，α设置两项的相对影响注意，我们可以将相同的策略应用于多个特征值为零的情况，通过将正交空间减少到仅对应于非零特征值的方向，并为我们希望其特征值为零的所有特征向量引入第一项。为了数值稳定性，我们进一步建议将第二项限制在范围[0， 1]内。为此，我们将损失改写为L（θ）=e~TATAe~+αexp。−. ¯ T¯ΣΣ、（6）其中β是标量。这种损失是完全可微的，因此可以用来学习深度网络的参数θ。因为它不显式地依赖于在优化的每次迭代中执行特征分解时，它既没有特征向量切换问题，也没有非唯一特征值问题。4.2学习预测体重在实践中，感兴趣的问题通常比训练网络直接输出矩阵Aθ更受约束。特别是，在本文中，我们consider的问题，其目标是预测一个权重Wi为每个元素的输入。这通常导致公式，其中AT Aθ具有形式XT WX，其中X是数据矩阵，W是对角矩阵，其元素是w。因此，我们在实验中介绍了每个应用程序的配方用3D点剔除离群值。为了表明我们确实可以通过所提出的损失公式很好地反向传播，其中直接使用分析梯度失败，我们首先简要地回顾了第1节中用于激励我们的方法的玩具离群值拒绝问题。在这个实验中，我们不训练深度网络，也不执行任何学习过程。相反，给定N个3D点xi，包括内点和离群点，我们直接优化这是一个很好的例子。一系列的优化，给定两个值，我们计算点的加权平均值µ=Σ1i=1wiNi=1 w ix i. 设X为3N减去均值的3D点的矩阵然后我们计算加权其中W是对角矩阵，其元素是W。然后，C的最小特征向量定义噪声的方向αtrβTR8Z. 该死，K。Yi，Y.Hu，F.Wang，P.Fua，M.Salzmann−如果e_grund_trut_s_u_ch_ige_vec_t或e~，则l_t_X=I-e~e~T。我们适应了Eq.的一般公式6并且将离群值拒绝问题公式化为尽量减少We~TXTWXe~.+ αexp− βtr（X¯TWX¯）Σ。1¯（七）1注意，这直接转化为Eq.6通过定义Aθ =W2X，其中W2是具有元素√wi的对角矩阵。关键点与基本矩阵匹配。对于这个任务，为了只隔离损失函数的影响，我们遵循与[37]相同的设置。具体来说，我们使用与[37]中相同的网络架构，其将两个2D点之间的C个对应关系作为输入并输出C维权重向量，即每个对应关系一个权重。形式上，让q= [u，v，u′，v′]T，（8）我我我我我对两个图像中的对应i的坐标进行编码。按照8点算法[23]，我们构造矩阵X∈RC×9，其中的每行由一个对应向量qi计算为X（i） =[u u′，u v，u，vu′，v v′，v，u′，v′，1]，（9）我我我我我我我我我其中X（i）表示X的第i8点算法[39]的加权版本然后计算本质矩阵作为XT WX的最小特征向量，其中W是权重的对角矩阵。LetX¯=X（I−e~e~T），其中e ~是一个新的向量或新的向量真正的基本矩阵。我们将无特征分解的本质损失写为L（W）=e~TXTWXe~+αexp。−βTR. XT WX¯ΣΣ。（十）给定一组训练样本，由N个具有地面真实基本矩阵的图像对组成，然后我们可以使用这个损失，而不是[37]的分类损失或基本损失，来训练网络来预测权重。请注意，如[11]和[37]中所建议的，我们使用相机固有函数将2D坐标归一化为[ 1，1]作为网络的输入。当计算损失时，如[12]所建议的，我们将保留点的质心移动到co或d的起始位置y√stem m，并将保留点计算为它们到原点的RMS距离等于2。这意味着我们也已经过计算和转换，可以直接进行。用于姿态估计的3D到2D对应。这个问题的目标，也被称为透视n点（Perspective-n-Point，PSPs）问题[21]，是在给定已知的3D点和相应的2D图像点的情况下，确定校准相机的绝对姿态（旋转和平移）对于这个任务，由于我们仍然在处理稀疏对应关系，我们使用与2D到2D对应关系相同的网络架构，除了我们现在有一个额外的输入维度，因为我们有3D到2D对应关系。无特征分解损失9我该网络将3D和2D点之间的C个对应关系作为输入，并输出C维权重向量，每个对应关系一个在数学上，我们可以将输入对应表示为qi =[xi，yi，zi，ui，vi]T，（11）其中xi、yi、zi是3D点的坐标，并且ui、vi表示相应的图像位置。根据[11]，我们有uiΣXiΣyip1p2p3p4简体中文伊日f标度vi=R，t=。（十二）1zi1p9p10p11 p12zi1为了恢复姿势，我们遵循直接线性变换（DLT）方法[11]。这包括构造矩阵X∈R2C×12，其中每两行由一个对应qi计算为ΣX（2i−1）Σ Σx=伊伊伊1 0 0 0 0−ui xi−uiyi−uiziΣ−ui、（十三）X（2i）0 0 0 0xi yi zi1 −vi xi−vi yi−vi zi−vi其中X（i）表示X的第i行。然后，可以获得加权PnP问题的解作为对应于最小特征值的XT因此，我们可以定义类似于等式1的PnP损耗对于2D到2D对应关系，但其中X如上文所论述定义，且给定N个训练样本，每一训练样本由具有编码所述位姿的对应真实特征向量的3D到2D对应关系的集合组成，训练网络以预测权重，使得我们经由DLT获得正确位姿与2D到2D的情况一样，我们使用归一化坐标系作为2D坐标。注意，DLT解决方案不保留旋转矩阵的特性，即正交性和行列式1。因此，为了使结果成为有效的旋转矩阵，我们通过广义Procrustes算法[8，30]来细化DLT结果，这是Pencil算法的常见后处理技术。请注意，在训练期间不涉及此步骤，而仅在验证过程中选择最佳模型和测试时。5实验我们现在展示我们对上面讨论的三个任务的结果，即第2节中的平面拟合，区分好的关键点对应和坏的关键点对应，以及解决透视n点（PSPs）问题。我们依赖于使用Adam [18]优化器的Ten- sorFlow实现，除非另有说明，否则学习率为10- 4，默认参数。在训练网络进行关键点匹配和PnP时，我们使用了32个样本的小批量，在平面拟合的情况下，我们还测试了香草梯度下降。我10Z. 该死，K。Yi，Y.Hu，F.Wang，P.Fua，M.Salzmann±−∈∈ǁ±ǁ2(a)损失演化与玩具示例中的SVD（b）具有SVD的内点（c）具有我们的内点图2：存在一个或多个异常值的平面拟合。我们报告奇异值分解（SVD），自伴特征分解（Eigh），并为我们的损失函数的结果。对于每一个损失，我们尝试了[10- 5， 1]范围内的多个学习率，并报告了收敛方面的最佳结果。(a)单个离群值的损失演变。(b)对于多个离群值，SVD基线丢弃许多内点（位置1到100是真正的内点），同时接受离群值。相比之下，如（c）所示，我们的方法正确地拒绝了异常值并接受了内值。平面拟合该设置是第2节中讨论的设置。我们在z = 1平面上随机抽取了100个3D点。具体地，我们对x[0，40]和y[0，2]进行均匀采样。然后，我们添加了零均值高斯噪声，标准偏差为0。001在z维度上。我们还以类似的方式生成离群值，其中x和y在相同范围内均匀采样，z从均值为50且标准差为5的高斯分布中采样。对于直接使用SVD和ED的分析梯度的基线，我们将目标函数取为min emin（w）egt，其中emin（w）是等式中X WX的最小特征向量。并且egt是地面实况噪声方向，其也是平面法线并且在这种情况下是向量[0，0，1]。请注意，我们同时考虑+egt和egt，并取最小距离，在损失函数中用和min表示对于这道题，两种解法都是正确的由于ED的符号不明确，这应该被考虑在内。我们考虑了两种计算分析梯度的方法，一种是使用SVD，另一种是使用自伴特征分解（Eigh），这两种方法都可以得到数学上有效的解。为了实现我们的方法，我们依靠Eq。7.第一次会议。图2（a）示出了当使用香草梯度下降并且具有单个离群值时随着优化进行的损失的演变。请注意，SVD和Eigh具有完全相同的行为，因为它们构成了解决同一问题的两种等效方法。使用梯度下降结合任何一个最初产生一个非常缓慢的减少损失函数，直到它突然下降到零后，数百万次迭代，当开关的特征向量与最小的特征值发生。相比之下，我们的方法产生了一个更渐进的损失减少。我们还评估了我们的方法的行为和存在更多离群值的基线。我们的方法和基线呈现相同的收敛性无特征分解损失11如前所述，如图所示。在图2（b，c）中，我们的方法正确地恢复了内点和离群点，而SVD基线丢弃了许多离群点，甚至接受了离群点。注意，虽然在该示例中基于SVD或基于Eight的方法收敛，但在下面更复杂的情况下，这并不总是正确的。关键点匹配。为了在现实世界的问题上评估我们的方法，我们使用SUN3D数据集[36]。为了公平比较，我们在与[37]相同的数据上训练了我们的网络，即此外，为了表明我们的方法不会过度拟合，我们还在完全不同的数据集上进行了测试，即[ 32]的“fou n -P11”和“He r z -Jesus-P8”方程。我们遵循[37]的评估协议，其构成关键点匹配中的最10. 我们使用α= 10和β= 10−3，我们根据经验发现这对于2D到2D关键点匹配效果很好。我们将我们的方法与[37]的方法进行比较，两者都是在其原始实现中，首先涉及最小化分类后者旨在显示[37]的基于初始分类的最小化的关键性。此外，我们还与标准 RANSAC [4] ， LMeds [31] ，MLESAC [33]和GMS [2]进行比较，以提供额外的参考点。我们根据[37]中使用的性能指标来进行此操作，并将其称为平均平均精度（mAP）。该度量通过观察给定某个最大阈值的准确恢复的姿势的比率并取该图的曲线下的面积来计算我们在图中总结了结果3.第三章。我们的方法与[37]（用于关键点匹配的最先进的方法）表现相当，并且优于所有其他基线，而不需要任何预处理。通常，“E ss e n t i al O n l y”严重表现不佳，甚至经常完全失败。简而言之，我们可以直接优化目标函数，而不是像[37]中那样必须找到特征向量切换问题的解决方案，这是更普遍适用的。此外，[37]中的解决方案将收敛到次优解，因为分类损失取决于用户选择的决策边界，即内点的启发式定义。相比之下，我们的方法可以在训练时简单地自动发现内点，这要归功于等式中的第二项六、在图的底行中。3，我们将我们的方法分类为内点的对应关系与RANSAC在数据集图像对上的对应关系进行比较[32]和SUN3D。请注意，即使被我们的方法错误分类为内点的对应关系也非常接近于内点。相比之下，RANSAC产生更大的误差。PnP.遵循用于评估PnP算法的标准实践[21，6]，我们生成由具有噪声和异常值的3D到2D对应组成的合成数据集每个训练示例包括2000个3D点，并且我们将相机姿态的地面实况转换tgt设置为它们的质心。然后，我们创建随机地面实况旋转Rgt，并将3D点投影到12Z. 该死，K。Yi，Y.Hu，F.Wang，P.Fua，M.Salzmann×(a) 我们的（b）RANSAC（c）我们的（d）RANSAC图3：关键点匹配任务的结果。请注意“仅限基本”，它直接利用特征分解，我们的方法之间的显着性能差距（左下两幅图像）我们的结果与[ 32]的“foutai n-P11”图像上的RANS A C结果的比较。（不是两个图像）SUN 3D的“brown-bm-3-05”图像对上的类似比较。我们将算法标记为内点的对应关系显示出来。真阳性以绿色显示，假阳性以红色显示。我们的方法的误报仍然接近正确，而RANSAC的误报是真正错误的。我们的虚拟相机的图像平面。与REPPER [6]一样，我们将标准差为5的高斯噪声应用于这些投影。我们通过将3D点分配给任意有效的2D图像位置来生成随机离群值。我们用与关键点匹配情况相同的架构训练神经网络，除了它现在以3D到2D的对应关系作为输入。我们根据经验发现，α= 1和β= 5 10−3对于这个任务很有效。在训练过程中，为了学习对离群值的鲁棒性，我们从2000个匹配中随机选择100到1000个，并将它们变成离群值。换句话说，两千个训练匹配将包含随机数量的离群值，我们的网络将学习过滤掉这些离群值。我们将我们的方法与现代PnP方法EPnP [21]，OPnP [40]，PPnP [8]，RPnP [22]和REPPnP [6]进行比较。我们还评估DLT [11]，因为我们的损失公式是基于它的。在这些方法中，REPPnP是最专门设计用于处理离群值的方法。在关键点匹配的情况下，我们试图计算网络的结果，显式依赖于特征分解，并最小化地面真实特征向量和预测特征向量之间的差异的2然而，我们发现这样的网络无法收敛。我们还报告了利用RANSAC [7]、P3P [19]+RANSAC和EPnP+RANSAC的两个常用基线的性能为无特征分解损失13(a)旋转误差（度）（b）平移误差图4：定量PnP结果。我们的方法和几个基线的旋转和平移误差。我们的方法给出了非常稳定的结果，尽管丰富的离群值，而所有比较的方法执行显着较差的离群值的数量增加。即使当这些方法在旋转或平移上表现良好时，它们也不能在两者上表现良好。相比之下，对于高达130个异常值的两个测量，我们的产生接近零的误差（即，65%）。对于其他方法，RANSAC没有带来明显的改进，并且为了更好的视觉清晰度，我们在图中省略了它们。对于这种比较，我们使用标准旋转和平移误差度量[5]。具体而言，我们报告使用四元数测量的旋转矩阵的最近弧距离（以弧度为单位）为了演示测试时离群值的影响，我们将匹配数固定为200，并将离群值的数量从10变化到150。我们将每个实验运行100次并报告平均值。图4总结了结果。我们的表现明显优于所有其他方法，特别是当异常值的数量增加时。REPPnP是一种受影响最小的竞争方法。只要异常值的数量很小，它与我们不相上下，但超过了某个点-当有超过40个异常值，即总数的20%-其性能，特别是在旋转误差方面，迅速下降，而我们的则没有。我们在[13]的真实数据集上评估了我们的Pestival方法。具体而言，使用[35]的SfM算法获得该数据集中的3D点，该算法还为每个图像提供旋转矩阵和平移向量我们将这些旋转和平移作为地面实况来比较不同的PnP算法。给定一对图像，我们在一个图像中的3D点的重投影处提取SIFT特征，并将这些特征与在另一个图像中检测到的SIFT关键点进行匹配。该过程产生错误的对应关系，鲁棒的PnP算法应该丢弃该错误的对应关系。在这个例子中，我们使用了在前面描述的合成数据上训练的模型请注意，我们在没有任何微调的情况下应用模型，也就是说，模型只使用纯合成数据进行我们观察到，除了EPnP+RANSAC、OPnP和P3P+RANSAC之外，基线的预测远离地面实况，这导致点14Z. 该死，K。Yi，Y.Hu，F.Wang，P.Fua，M.Salzmann图5：定性PnP结果。上：两对图像（左：Reichstag，Right：Notre-dame）. 对于每一对，我们寻求估计第二图像中的姿态底部：对于每一对，我们以灰色示出了在分别应用由我们的模型和EPnP+RANSAC预测的旋转和平移之后的3D点云的重投影红点对应于s上i处的地面实况loc。即使我们的模型的预测值比基线更接近地反映了结果重新投射到图像之外图5，我们比较了在应用用我们的模型和用EPnP+RANSAC获得的旋转和平移之后输入图像上的3D点的重投影注意我们更好的准确性。6结论我们已经介绍了一种新的方法来训练深度网络，该深度网络依赖于从与由网络输出确定的矩阵的零特征值相对应的特征向量计算的损失。我们的方法不受特征分解的解析微分的普遍不稳定性的影响，并且更快地收敛我们的方法实现了国家的最先进的结果上的关键点匹配和离群拒绝的任务的问题。许多计算机视觉任务依赖于线性系统的最小二乘解因此，我们将研究我们的方法在其他方面的使用此外，我们希望我们的工作将有助于将深度学习技术与传统的计算机视觉知识结合起来，从而避免放弃数十年来有价值的研究，并开发出更具原则性的框架。7确认本研究得到了国家自然科学基金的部分资助：资助项目61603291、B13043高校学科人才引进计划和国家科技重大专项：2018 ZX 01008103，以及瑞士创新局（CTI/InnoSuisse）的资助。这项工作是在郑荡访问EPFL的CVLab时完成的。无特征分解损失15引用1. Abadi，M.，Barham，P.，陈杰，陈志，戴维斯，A.，迪恩J Devin，M.，Ghe-mawat，S.，Irving，G.Isard，M.，Kudlur，M.，Levenberg，J.，蒙加河Moore，S.，Murray，D.Steiner，B.，Tucker，P.Vasudevan，V.，Warden，P.，Wicke，M.，Yu，Y.，郑X：Tensorflow：一个大规模机器学习系统在：USENIX操作系统设计和实施中。pp. 2652. Bian，J.，林伟，Matsushita，Y.，Yeung，S.，Nguyen，T. Cheng，M.：GMS：基于网格的运动统计，用于快速，超鲁棒的特征对应。在：CVPR（2017）3. Brachmann ， E. ， Krull ， A. ，诺沃津， S. ， Shotton ， J. ， Michel ， F. ，Gumhold，S.，Rother，C.：DSACARXIV（2016）4. Cantzler，H.：随机抽样一致性（RANSAC）（2005），cVonline5. Crivellaro，A.，Rad，M.，Verdie，Y.，Yi，K.M.，Fua，P.，Lepetit，V.：使用稳定部件从单目图像进行鲁棒3D对象跟踪PAMI（2018）6. 费拉兹湖Binefa，X.，Moreno-noguer，F.：使用AlgebraicOtlieRejetion的PnP问题的非常快速的解决方案。In：CVP R.pp. 5017. Fischler，M.，Bolles，R.：随机样本共识：模型拟合的范例及其在图像分析和自动制图中的应用。Communica-tionsACM24（6），3818. Garro，V.，Crosilla，F.，Fusiello，A.：求解各向异性非线性规划问题的一种新方法。 In：3DPVT. pp. 2629. Giles，M.：收集的正向和反向模式代数微分器的矩阵导数结果。 In：AdvancesinAutomaticD ifferntiaton. pp. 第三十五10. Handa，A.，Bloesch，M.，Patraucean，V.，Stent，S.，McCormac，J.，Davison ， A. ： Gvnn ：用于几何计算机视觉的神经网络库 In ： ECCV（2016）11. 哈特利河齐瑟曼，A.：计算机视觉中的多视图几何。剑桥大学出版社（2000）12. 你好，R。：在定义Eight-PoitA lgorithm的过程中。PAMI19（6），58013. Heinly，J.，Schoenberger，J.，Dunn，E.，Frahm，J.M.：在六天内重建世界参见：CVPR（2015）14. Huang，G.，刘志，Weinberger，K.，van der Maaten，L.：密集连接卷积网络。在：CVPR（2017）15. 黄志，Wan，C.，Probst，T.古尔，L.V.：李群上的深度学习用于基于密钥的检索。 In：CVPR. pp. 609916. 约内斯库角Vantzos岛Sminchisescu，C.：Matrix Backpropagation for DeepNet-works with Structured Layers（2015）17. Jaderberg，M.，西蒙尼扬，K.，Zisserman，A.，Kavukcuoglu，K.：空间Transformer Netorks。 In：NIPS. pp. 201718. Kingma，D.Ba，J.：亚当：一种随机优化方法载于：ICLR（2015）19. 克奈普湖Scaramuzza，D.，西格瓦特河：一种新的用于直接计算绝对摄像机位置和距离的透视三点问题的参数化。In：CVP R.pp. 296920. 法律，M.，Urtasun河Zemel，R.S.：深度谱聚类学习。在：ICML。pp. 198521. 莱佩蒂Moreno-noguer，F.，Fua，P.：EPn P： P n P问题的精确O（n）解。IJCV（2009）16Z. 该死，K。Yi，Y.Hu，F.Wang，P.Fua，M.Salzmann22. Li，S.，徐，C.，Xie，M.：透视N点问题的鲁棒O（n）解PAMIpp.144423. Longuet-Higgins，H.：由两个投影点重建一个场景的计算机算法。Nature293，13324. Murray，I.：Cholesky分解的微分02 The Dog（2016）25. Nister，D.：五点相对位姿问题的有效解法载于：CVPR（2003年6月）26. Papadopoulo，T.，Lourakis，M.：估计奇异值分解的雅可比矩阵：算法和程序。In：ECCV.pp. 第55427. Paszke，A.，格罗斯，S.，Chintala，S.，Chanan，G.，Yang，E.，DeVito，Z.，林芝，Desmaison，A.，安蒂加湖Lerer，A.：PyTorch中的自动微分。在：NIPS Autodiff研讨会（2017）28. Raguram 河 Chum ， O. ， Pollefeys ， M. ， Matas ， J. ， Frahm ， J.M. ：USAC：一个通用的R和S语言编译框架PAMI35（8），202229. Rousseuw，P.，Leroy，A.：稳健回归和离群点检测。03 The Dog（1987）30. S choénemann，P. ：一个通用的解决方案，解决了OrthogonalPr ocr usProblem的问题。Psychometrika31（1），131. Simpson，D.：1984年，他出版了《最小二乘回归》（Least Median ofSquares Regres）。 In：B reakthroughsinStatis ics，pp.433-461 02TheDog（1997）32. St

下载后可阅读完整内容，剩余1页未读，立即下载