3D视觉问题最大化无监督学习

22 浏览量更新于2023-10-18 收藏 1.98MB PDF 举报

无监督学习

数据拟合

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13D视觉问题的一致性最大化无监督学习Thomas Probst，Danda Pani Paudel，Ajad Chhatkuli，Luc VanGool计算机视觉实验室，苏黎世联邦理工学院，瑞士摘要一致性最大化是3D视觉中的一个关键策略，用于从具有离群值的测量中进行鲁棒的几何模型估计。共识最大化的通用方法，如随机采样和共识（RANSAC），在3D视觉的成功中发挥了巨大的作用，尽管离群值无处不在。然而，使用监督方法在一个深入学习的体系结构中复制相同的通用行为已被证明是困难的。在这种情况下，无监督方法具有适应任何不可见数据分布的巨大在本文中，我们第一次提出了一个无监督学习框架的consen- sus最大化，在解决三维视觉问题的背景下。为此，我们建立了一个关系之间的内点测量，表示为一个理想的内点集，和多项式的子空间表示的空间的目标变换。使用这种关系，我们得到一个约束，必须满足所寻求的内层集。该约束可以在不知道变换参数的情况下进行测试，因此允许我们有效地定义几何模型拟合成本。该模型拟合成本被用作用于学习一致性最大化的监督信号，其中学习过程寻求使所提出的模型拟合成本最小化的最大测量集使用我们的方法，我们解决了各种各样的三维视觉问题，包括3D-3D匹配，非刚性的3D形状匹配与分段刚性和图像到图像的匹配。尽管是无监督的，但我们的方法在几个数据集的所有三个任务中都优于RANSAC1. 介绍在3D视觉中，诸如运动恢复结构（SfM）[26，16，12]和图像配准[17，30]等问题是从具有离群值的噪声测量中几何解决的。在这种情况下，内点测量之间的共识最大化通常是关键的一步。通常，使用随机抽样搜索最大共识和共识（RANSAC）算法[13]或其衍生物[35，44，37]。在此过程中，几乎所有的几何模型都由多项式系统表示，多项式系统的公共根指定所需的变换参数。当与RANSAC一起使用时，基于多项式的几何模型表示提供了准确的变换参数，因此可用于各种问题[12，17，30，20]。全球最佳的冰毒-ods [10，33，42，2，15，3，23，49]克服了RANSAC的限制，进一步支持了最大化共识的重要性。然而，大多数寻求共识最大化的方法仅仅依赖于几何模型。它们不利用关于场景或其测量分布的知识。共识最大化学习是一种替代方法，通过利用给定数据的分布，它有可能提供更高的内点/离群点分类准确度。此外，用于共识最大化的监督信号可以帮助在多任务学习的框架内学习其他相关任务。由于深度学习的成功，最近的方法已经解决了使用基本矩阵[36]、Essential矩阵[48]和绝对姿态[7]的图像匹配这些方法使用通过地面实况标签的监督来训练神经网络，用于将对应分类为内点或离群点。其他方法[36，48]分别使用基本或基本矩阵模型，这些模型需要通过相关矩阵进行监督以训练网络参数。不幸的是，以监督方式训练的这种网络在其对不可见数据分布的一般性方面与RANSAC不相同此外，地面实况几何模型有时很难获得，甚至不存在[16]。在这种情况下，无监督方法具有巨大的潜力，因为它们可以适应任何看不见的数据分布，因此非常受欢迎。在本文中，我们提出了一个无监督的框架来学习几何3D视觉问题的共识最大化。我们使用多项式对几何变换进行建模，如文献中通常所做的那样929930真[12，16，30]。然后，我们开发了一个框架，拟合多项式在一个深的架构，同时最大限度地提高共识。为了开发这样的方法，我们首先建立由内点测量的理想表示的内点测量与表示目标变换空间的多项式的子空间之间的关系。然后利用这种关系来构造拟合多项式的损失函数，即所谓的Vandermonde矩阵上的奇异值最小化问题[4，8]。在最小化所提出的损失函数的同时，我们的训练过程还寻求测量值之间的最大共识。因此，我们的公式在不回归模型参数的情况下评估几何模型的一致性，已知这对于监督设置内的鲁棒估计任务是敏感的[36，48]。尽管如此，人们仍然可以考虑使用稳健的基于回归的公式，例如：基于M-估计量。然而，只有当异常值相对较少时，最小化这种鲁棒损失函数才能提供满意的结果[31，2]。另一方面，我们的损失函数旨在训练一个ODS），监督方法的推广性限于训练数据的域和输入数据的抽象级别。相比之下，我们的方法从代数簇[4，9]中获得灵感，以无监督的方式训练深度网络进行内点/离群点分类。我们建立在最近因无序点集[34，24，46]的学习而受到关注的置换不变网络上，通过调整PointNet [34]架构。3. 背景和理论3.1. 共识最大化给定集合X = {（ui，vi），i= 1，. . .，m}，一致性最大化问题涉及找到可以由单个参数变换Φ解释的最大子集λ λ X。对于每一对（u，v）∈φ，v与变换后的测量Φ（u）之间的距离小于阈值φ。从数学上讲，共识最大化的问题是，对应分类网络，它自然地扩展到许多转换模型，可以表示MaxΦ，ΦX|Ω|（一）一个或多个多项式。值得注意的是，我们既不需要分类标签，也不需要地面实况转换。据我们所知，我们的工作是第一个以无监督的方式学习深度架构，以实现3D视觉问题中的一致性最大化。我们的方法适用于各种各样的3D视觉问题：3D-3D刚体变换，非刚性形状匹配与分段刚性和未校准的2D变换（基本矩阵和单应性）。我们的实验表明，我们的方法是能够优于RANSAC在所有提到的任务，而无人监督。我们进一步实证地展示了监督方法在不同数据统计量上测试时的准确性。使用所提出的无监督训练框架，可以在很大程度上恢复这种准确性的下降。S.T.d（Φ（ui），vi）≤ φ，φ（ui，vi）∈ φ.我们使用文献中常用的多项式来表示Φ在这方面，（1）是一个代数问题，即找到一个已知维数的变量V在对我们的任务进行了一般性的阐述之后，我们首先讨论了在没有噪声的情况下的共识最大化问题。噪声数据的情况稍后考虑。3.2. 问题公式化考虑环R[x] ∶=R[x1，...，次数≤d的多元多项式与代数簇定义V <$Rn使得V ∶= {x∈Rn∶pj（x）=0}. 让xi=（u∈，v∈）n∈Rn是表示a我我2. 相关工作我们简要地总结了相关的工作，把我们的论文的背景。共识最大化是一个研究得很好的主题[12，17，30，20]，通常用RANSAC [13，35，44，37]。与启发式方法相比，全局方法提供了最优性证明[10，33，42，2，15，3，23，49]。近年来，监督机器学习被用来解决一致性最大化和鲁棒估计问题。关于双视图几何，[48，36]从关键点对应中学习，而[32，29]直接从输入图像回归变换参数[7]将RANSAC的可区分尽管它们可能显示出有益的准确性（w.r.t.经典RANSAC）和速度（与全局方法相比，X中的对应对。首先，我们感兴趣的是找到在由Φ约束的某个簇V上消失的X，其中X被离群值破坏。精确恢复V是一个NP难问题，因为理想I（V）：={∑jgj（x）pj（x）∶gj（x）∈R[x]}v中的每一个多项式都在V上。然而，理想I（V）的存在意味着V的存在。在这种情况下，拟合由Φ表示的3D线的示例问题涉及某个一维簇V的理想I（V），其由两个相交平面p1（x）和p2（x）参数化。如图1，理想I（V）由通过该线的平面的笔表示期望的内点集是最大的内点X，其中存在由一维V表示的线，该线穿过所有3D点x∈X。在求 λ 时，通过保证I （ λ ）的存在性，保证 V（λ）∶={V ∶ λ λ V}的存在性。931ΩΩ3定义3.3范德蒙矩阵Md（n）∈Rm×s是每行都有一个几何级数单项式项的矩阵，使得元素mij是单项式x e= x e1 x e2. . . x en的次数至多为d。1 2N例如，如果n=1，d= 3，并且n= {x1，x2，x3}，则M3（m）是Vandermonde矩阵，图1. 3D直线拟合。求一维变量V第三章x2x11个⎢1 1⎥从样品组X.V是平面p1（x）和M3（m）= 1x3x2x21 m。2 2xp 2（）. 理想I（V）是一束平面。3号线3x31英寸定义3.1理想I（λ）是在λ的样本上为零的多项式集合。即I（V）∶= I（V（V））。人们可以争辩说，总是存在一些I（I），即使当I= X时也是如此。然而，我们只对那些位于有效变换空间Φ中的I（λ）感兴趣，由多项式基B λ R[x]表示。我们假设Φ位于B所张成的向量空间内。定义3.2基B是R[ x ]的单项式基的集合，RB=R[B]是B张成的多项式的子空间。因此，R B中的任何多项式都可以用R s中的系数向量表示，其中s = |B|.Φ的多项式表示涉及RB中的r个线性相关方程，这些方程对所有x∈φ都为零。例如，在3D中拟合直线和球体时，（r，RB）分别为（2，R[x1，x2，x3]1）和（1，R[x1，x2，x3]2）一致性最大化问题可以被重新定义为寻找最大的内围集，其中存在某个理想I（λ），其与RB的交集正好跨越r维：注意，Md（m）随着样本数m和单项式数s线性增长，因此是一个紧凑的表示。范德蒙矩阵的一个关键属性，它允许我们分析I（）RB的存在，如下所述定理3.4 Vandermonde 矩阵 Md （ k ）的核ker（Md（k））等于向量空间I（k）<$RB。也就是说，所有的多项式是B的线性组合，并且在λ上为零，则表示为I（λ）λ RB=ker（Md（λ））。使用定理3.4，（1）的问题被表示为以下约束基数最大化问题，Max|Ω|， s.t.dim（ker（Md（k）= r.（三）X然而，在存在噪声的情况下，在（3）中给出的对Vandermonde矩阵Md（k）因此，我们通过最小化Md（Ω）的奇异值来强制维数约束 [18]。对于降序奇异值 σ1，σ2，. . .σ s，则尾r奇异值必须为零，使得（3）的约束为真。因此，对于给定的标量λ，我们放松（3）的问题如下：r−1Max|Ω |− λ <$σ s−k（Md（ε））.（四）电子邮件 *k=0Max |Ω|：dim（I（λ）RB）= r.（二）X直觉上，（2）的问题要求I（λ）必须在RB中由r方程表示的所有多项式上成立，如需要Φ。回顾图的例子1.一、V线活下来了最大化基数可以被认为是一个子集选择问题，使用一组二元变量wi∈{0， 1}（去）激活Md（n）中的相应行。m r−1max <$w i− λ <$σ s−k（diag（w）Md（X））.（五）在线性多项式空间RB=R[x1，x2，x3]1中，w∈{0，1}mi=1k=0维度2。换句话说，一个人需要两条独立的线-耳方程来表示3D中的线。在所有的线性多项式中（在RB中），消失在n上，我们要求正好有两个是独立的。这些方程实际上表示两个相交的平面，即线V。3.3. 理想和样本集（5）的精确求解涉及组合优化，并且在实践中不容易处理。因此，我们通过如下使用连续样本权重wi引入内点的软选择来m r−1max<$wi−λ<$σs−k（ diag（w）Md（X））， s.t.0 ≤ w i≤ 1。X2932理想I（λ）和样本集λRn之间的关系可以借助于所谓的i=1k=0（六）范德蒙矩阵。这也使我们能够推理对于所选的基B存在I（λ）RB。方程（6）仍然不是凸的，然而，它是可微的，并且可以使用基于梯度的方法来优化。9334 B6θθ5我3.4. 恢复理想在某些情况下，我们感兴趣的是实际恢复理想P = I（λ）RB，例如计算变换Φ的参数。考虑M（X）=U∈VT的SVD分解.回想一下，我们兴趣P位于M（X）的核上。因此，我们可以从M（X）的零空间中提取相应的多项式，由尾随的r个右奇异向量表示，B= [vsvs−1. . . vs−r+1] ∈ Rs×r.（七）设p（x）是B中单项式的向量。恢复的理想P则定义为P = {BTp（x）=0}。3.5. 深度学习实现共识最大化除了直接优化Eq.（6）对于给定的对应集合，可以认为是用于从数据学习共识最大化的监督信号。给定一个以θ为参数的神经网络wθ（X）∶Rm×n→ [0， 1]m，我们希望学习每个样本的预测得分wixi∈ X，最大化内点的数量（wi→1），同时拒绝离群点（wi→0）。为此，我们定义了一个可区分的监督信号，它既不需要逐点标签，也不需要关于对应关系之间的地面真值变换的知识给定样本集X，我们的目标是通过最小化以下经验损失θ（θ，X）来学习最佳参数θ，基于等式：（六）、使用标准构建块建模：在构造Vandermonde矩阵 Md（X）∈Rm×s后，对每行i用相应的内点概率wi加权.然后，我们计算加权的最后r个奇异值，Vandermonde矩阵的可微SVD运算。该架构如图所示二、我们在tensorflow [1]中实现网络，并使用ADAM[19]优化器来学习参数θ。通过设计，我们的方法概括了可以由多项式方程表示的变换函数。在下面的部分中，我们将解释如何使范德蒙损失适应几何变换问题。4. 3D视觉问题在这一节中，我们提出了四个3D视觉问题的共识最大化问题的例子，并介绍了不同的问题特定的RB子空间约束。不幸的是，对转换的参数不能直接应用于该框架。然而，由于我们可以计算理想P并提取模型的参数，因此我们能够在解上引入4.1. 刚体变换我们考虑两个点云之间的对应关系，不同的3D刚体变换。设{u，v}是一对点的欧几里得坐标，使得r−1v=Ru+t，R∈SO（3），t∈3IR。（十）<$（θ，X）= − <$wθ（X）<$1 + λ <$σ s−k（diag（wθ（X））Md（X））.k=0（八）我们网络的输入是一组对应关系X。因此，我们需要一个对输入的排列不变的架构，而大多数神经网络是为有序输入数据设计的，例如。2D图像。然而，无序点集深度学习的最新进展[34，24，46]允许为我们的问题选择合适的架构。我们采用PointNet [34]分割架构来鼓励对潜在转换进行全局推理。该体系结构的关键组成部分是在计算全局特征向量（GFV）之前对对应关系进行最大池操作然后将GFV连接到逐点特征，以利用全局上下文进行逐点预测。由于我们的目标是二元内点分类，因此我们添加了一个按元素的sigmoid层，该层输出范围内的内点预测得分wi[0， 1]。我们将预测函数wθ（X）定义为我们可以看到这个Eq。（10）涉及对应点坐标中的r=3线性方程。因此，我们可以将多项式子空间RB限制为线性项B ={ux，uy，uz，vx，vy，vz，1}。这导致范德蒙矩阵M（X）∈Rm×7，核维数为3.请注意，此表示适用于任何3D仿射变换，因为它不强制旋转流形和缩放约束。因此，我们在恢复的理想P上引入一个额外的正则化项。回想一下，我们根据等式提取P的基B（七）、P中恢复的多项式是等式（1）的某种线性组合。（十）、为了恢复R和t的分量，我们需要改变基来分离每个方程中的vx，vy和vz期望的在Eq.中的形式的基B′（10）可以通过B′=−[bT TbT]−TB=[R−I3×3t]，（11）其中bi表示矩阵B的第i行。这种形式提供了对估计的旋转和平移参数的直接访问为了避免数值问题，我们在我们的实现中的矩阵求逆之前添加了一个小的w（X）=s（C（X）），s（x）=（1+e-x）−1，（9）第基于这一观察，我们定义了一个正则化子，其中PointNet-seg输出表示为Cθ（X）∈Rm。与损失函数（8）一起，我们的体系结构可以是我9342r（θ，X）=log（1+（十二）935i=1图2. 方法概述。一组对应关系X被馈送到输出内点得分w的网络。每个分数在范德蒙矩阵Md（X）中对其对应的行进行加权。我们最小化Md（X）的最后一个奇异值，同时最大化内点的数量。训练仅使用关于变换Φ的多项式结构的知识。日志用于减轻尖峰样行为。我们将λ rr（θ，X）加到范德蒙损失（8）上。注意（12）也可适用于尺度归一化后的正交性相似变换。非刚性延伸。理论上来说没有理由假设我们的网络可以学习内层统计数据，数据中只有一个刚性变换。只要由于存在一致的变换模式，因此可以通过相应训练的网络来提取内点之间的重叠[45]。在这项工作中，我们在无监督学习的背景下研究了这个想法。我们假设该变换可以通过分段刚度来近似，这是一种针对非刚性表面的已充分研究的近似[43，28，38，21]。因此，我们通过局部邻域上的刚性变换来模拟全局非刚性变形。一个直接的方法是计算我们的损失定义为三维刚性变换的局部邻域的输入点集。给定第一个点云上锚点ua∈U的K-邻域Na，我们组装一个局部Vandermonde矩阵M（ Na）。然后根据Alg计算损失。1.一、算法1分段刚性损失矩阵Ripr（θ，X，K）0. 定义一个参考点集U={ui∶（ui，vi）∈X}.1. 随机采样一个锚点ua∈U。2. 计算uaNa={（ui，vi）∈X∶d（ua，ui）≤δ}，其中|Na|=K。3. 集合局部范德蒙矩阵M（Na）。4. 提取M（Na）的Ba（7）以计算θr（θ，Na）（12）。5. 计算θ（θ，Na）（8）。6. 返回<$（θ，Na）+λr<$r（θ，Na）。锚点ua的随机采样可能导致高方差和不稳定训练的gra-1。我们观察到，较大的批量大小和较低的学习率提供了稳定的gra，并显着提高学习。4.2. 未校准的2视图几何结构我们现在考虑未校准的透视相机的2D图像点之间的对应关系{ui，vi}m取决于相机运动，两个视图之间的关系可以通过基本矩阵或单应性来描述，如由下式表示：对于基本矩阵F∈R3×3，u T Fv <$0。（十三）u−Hv <$0，对于单应性H ∈ R3×3。（十四）一个有趣的性质是，两者共享2个变量的二次多项式的相同多项式子空间R B：B = {ux，u y，v x，v y，ux v x，ux v y，u y v x，u y，v y 1}。然而，基本矩阵（13）表示为：RB中的r=1个基，而单应性（13）受r=3个基的约束。（13）和（14）的多项式的相似性允许我们训练一个可以处理两者的网络同时，通过简单地最小化一个或三个奇异值。这给出了比包括RANSAC 的其他方法显著的实际优势，RANSAC在退化运动下导致注意，在基本矩阵的情况下，我们不能直接强制F是秩亏的。给定估计的基本矩阵F∈R3×3，由基B∈通过整形，我们定义了一个正则化项f（θ，X）=σ3（F），（15）最小化最后一个奇异值。再次，我们添加λf <$f（θ，X）形成完全损失。5. 实验结果我们进行了各种实验，以验证所定义的理论框架，并证明了无监督学习的性能，共识最大化。与RANSAC相比，我们假设50%的离群率，并相应地调整参数在实际数据的实验中，我们计算了ROC曲线，并为每种方法选择了最佳操作点。936图3. 3D-3D刚体变换估计，离群值率增加。我们通过改变综合引入的离群值的比率来评估ModelNet-40测试集上的内点检测率、离群值检测率和F1得分。我们比较了合成数据和ModelNet-40训练集的训练，包括监督和无监督训练设置。图4. 3D-3D刚体变换估计，噪声水平增加。从左至右：使用60%合成离群值评价对ModelNet-40测试集的F1评分、旋转误差和平移误差的影响。合成数据支持培训。虽然我们能够从头开始训练我们的网络，在存在高达50%的离群值的情况下获得有竞争力的结果，但除此之外的过程变得微妙。然而，当使用合成数据进行初始化时，训练行为证明与预期一致，对于具有非常不同分布的真实数据，异常值高达98%，具有非常有竞争力的结果。请注意，我们关心的是最大限度地提高3D视觉问题的一致性。在这种情况下，从噪声生成这种合成数据是简单的。然而，正如预期的那样，考虑到统计数据中不可变的差异，仅在合成数据上进行训练不足以在真实数据上获得良好的整体性能。实作详细数据。我们使用64个样本的批量进行训练，每个样本包含512个对应关系。训练进行了固定数量的100个时期，学习-从10−3开始，每10个历元的衰减率为0.9。超参数设置为λ = 0。15，λ r= λ f= 0. 01. 我们通过统一的SAM生成用于预训练的合成数据应用3D点，并应用随机的6-DoF姿势。对于双视图数据，我们从[-60，60]度和随机平移均匀采样三个5.1. 3D 3D刚体变换我们首先调查的行为，我们的方法在不同的离群值率和噪声水平的情况下，在半合成实验的3D-3D刚体transformation。以下实验是在ModelNet-40 [47]数据集上进行的，使用默认的训练/测试分割。我们从每个模型中采样了512个点，并在这些点上添加了1%的噪声。然后，我们应用无约束刚性变换和随机混合对应以生成期望数量的离群值。在图3中，我们绘制了内值和离群值检测率以及F1度量，以便与几个基线进行比较。在这里，我们评估了两种方法在合成数据上进行预训练的性能：有监督（U-SV）和无监督（U-UNSV）。对于B-unsv，我们使用Vandermonde Loss（8）进行训练，从只有10%的离群值率开始，逐渐增加到95%的离群值率，而B-sv直接使用交叉熵损失进行训练。自然地，有监督的预训练表现得更好。更有趣的是，在无监督微调中，我们观察到两种预训练方法都有很大的在微调的模型中，在高离群值率的域中，model-sv +modelnet-unsv稍微优于model-unsv +modelnet-unsv，同时接近端到端监督方法modelnet-sv的性能。因此，我们可以得出结论：1）有监督的预训练更有效，2)数据特定的微调是必要的，并且3）无监督的微调能够适应ModelNet-40的不同统计。此外，实验表明，RANSAC是不是有用的监督信号在离群率超过60%。对于第二个实验，我们将噪声水平从0%变化到5%，固定的离群值率为60%。如图所有训练方法的F1分数都相当稳定，而RANSAC在超过2%噪声时开始恶化。更重要的是，通过评估从各自的内点估计的模型的旋转和平移误差，我们发现EST-SV的表现非常糟糕。我们将此归因于这样一个事实，即域间隙导致相当好的准确性（类似于RANSAC），但它无法拒绝一些非常糟糕的离群值，从而导致不充分的937图5. 2-具有增加的离群值的视图几何估计。从左至右：使用基本矩阵、单应矩阵和基本矩阵的50-50混合以及纯单应矩阵对ModelNet-40测试数据进行评估。图6. 非刚性形状匹配。从左至右：稀疏SfM源点云;参考SMPL [27]模型;由我们的网络分类的对应关系（黑色的内部值和红色的异常值）;分别显示的内点（顶部）和离群点（底部）的俯视图;以及在执行使用我们检测到的内点初始化的铰接ICP之后获得的网格模型的前视图和侧视图。最后两个图像中的红点是叠加在拟合网格模型上的SfM点云。图7. 刚体变换。我们的方法在T-Rex数据集[10]（85%离群值）上使用PFH [39]匹配的对应分类结果左侧显示了内点和离群点，右侧显示了两个视图中的对齐模型。图8. 具有增加的离群值的2D-2D单应性估计。左图：在ModelNet-40测试集上比较F1得分与RANSAC变体。右：各种方法的运行时图9. 2D-2D基本矩阵估计。Middlebury Temple的ROC曲线（顶部）。右图显示了四种方法在三个真实数据集上的操作η是离群值率。匹配附件.我们的方法BS-sv +modelnet-unsv与监督模型竞争，在所有指标上都我们的结论是，最小化我们的损失提供了更好的分类精度，并导致更好的模型，从而验证了我们的理论考虑。在图7中，我们展示了T-Rex数据集[10]（85%的离群值）的定性结果，该结果是我们针对PFH [39]特征匹配的未经监督训练的离群值去除网络。5.2. 二维单应性基本矩阵我们现在分析2D-2D Fundamental矩阵和单应性估计任务的性能。首先，我们研究半合成生成的数据的行为。我们将来自ModelNet-40数据的3D点投影到两个具有不同运动和焦距的视图上，并添加了3 px噪声。图中左侧的图。5比较了预训练，我们的方法和Funda上的监督学习，938心理矩阵估计我们观察到比预训练略有改善，微调接近监督性能。这可以归因于预训练中使用的类似运动统计。在这里，我们省略了与其他监督方法的比较[36]，这些方法显示了与modelnet-sv相当的性能。在图的中间和右边的图中。5，我们分别测试了50%和100%的单应性。在这里，我们在同态和基本矩阵上训练了我们的模型（见等式2）。（14）和（13）），仅知道训练时（而不是测试时）的运动类型（而不是参数）我们比较了具有基本矩阵和单应性模型的RANSAC，以及用于基本矩阵估计的最先进的监督方法[36]dfme-sv。我们可以清楚地看到，我们的非监督方法可以处理这两种情况，而不是单一模型方法，无法通过拟合基本矩阵单应性数据来拒绝离群值。对于高达 80% 的离群值，无监督方法与完全监督的modelnet-sv非常有竞争力。我们进一步比较了F1分数和运行时间与RANSAC[ 35 ]的各种变体和图中单应性估计的全局最优方法[11]。8.最佳基线USAC可靠地工作，直到70%的离群值率。扩展到80%涉及到增加最大值。迭代100倍到50k，严重影响运行时间。全局最优方法[11]慢了几个数量级，并且在10%的离群值以上失败，因此通常不实用。请注意，我们的实现绝不是为了效率而优化的下一组实验是在三个不同的数据集上进行的，其中地面实况运动是已知的：来自Middlebury-MultiView数据集的Temple和Dino[41]，以及KITTI的一个序列[14]。我们对训练和测试的帧进行了不联合采样，计算了SIFT关键点，并在多达5个相邻帧的距离上进行了匹配。在图的左侧图中。9我们通过绘制不同分类阈值的ROC曲线来可视化分类性能。我们观察到，无监督的训练使AuC和操作点非常有竞争力的监督训练。在图的中间。9我们在所有三个数据集上绘制了所有方法的操作点。请注意，预训练的模型EST-SV产生次优的结果，并不断改善unsuper-viewed微调到类似于监督模型的水平5.3. 非刚性3D形状匹配为了衡量我们的方法学习非刚性变换的能力，我们在FAUST [6]数据集上进行了实验。该数据集提供了10种不同姿势的10种不同体型的受试者。我们以一个物体为参考模型，预先计算测地邻域。对于每个训练样本，我们计算局部损失ac-内点/外点时间[s]含/离群值时间[s]DFM [25]4211 /7721.03756 /12271.0MFCM [33]三九一八/三十一243437 /9319sv3812 /740.82601 /820.8抗sv +unsv3814 /580.83122 /110.8[22]第二十二话4736 /181894051 /86092MFCM [33]4556 /171103634 /161115sv3811 /230.82371 /1710.8抗sv +unsv3957 /190.83303 /400.8者内主体间表1. 非刚性3D形状匹配。我们对FAUST [ 6 ]的研究结果是受试者内和受试者间与[22]和[33]。我们报告真阳性（内点）和假阳性（剩余的离群点）匹配的数量，以及CPU上的运行时间。（K=512），我们将每个时期的邻居数量线性减少到K=100。表1中报告了两个数据集的结果：受试者内（主要是等距，姿势变化）和受试者间（非等距，相似姿势）。初始匹配使用DFM [25]和KM [22]计算。再次，我们观察到无监督方法适用于特定于方法的离群值统计，而在合成离群值上预训练的方法无法推广。与等距一致性最大化方法MFCM [33]相比，我们释放了更多的内点，这可以归因于分段刚性不是完全正确的变形模型。在图6中，我们给出了将稀疏SfM点云（使用Colmap [40]从72个图像重建）与SMPL [27]参考模型匹配的定性结果。我们训练我们的网络来过滤KM中的匹配[22]。所得到的匹配集使得能够对身体姿势和形状进行基于ICP的细化[56. 结论在本文中，我们介绍了一种无监督学习的共识最大化的方法。基于由内点集的理想表示的内点测量值与表示目标变换空间的多项式子空间我们的实验证实，有一个巨大的潜力，在适应基于学习的方法，以未知的数据域。我们在一组不同的3D视觉问题上证明，我们的方法可以成功地微调到新的数据，而无需外部监督，从而复制RANSAC的通用行为对于未来的工作，我们有兴趣调查的情况下，类型的转换也是未知的，通过共同寻找polyno-在此基础上，适当的多项式驻留。鸣谢。这项研究由欧盟地平线2020计划资助，资助号为。687757 -REPLI- CATE和瑞士技术委员会根据Alg。1.一、培训以课程学习的方式进行：从一个全球转型开始和创新（CTI），批准号。26253.1 PFES-ES -已删除。939引用[1] M. 阿巴迪山口Barham，J.Chen，Z.Chen，中国山核桃A.Davis，J.迪恩M. Devin，S.盖马瓦特湾Irving，M. Isard，M. 库德鲁，J. 莱文贝格河Monga、S.穆尔，D.G. 默里湾斯坦纳P. A. Tucker，V.Vasudevan，P.Warden，M.Wicke，Y.Yu和X.张某Tensorflow：一个大规模机器学习系统。在OSDI，2016。4[2] J. - C. Bazin，H.李岛S. 昆角芒索山口Vasseur和K.池内对应与分组问题的分枝定界法 IEEE transactions onpattern analysis and machine intelligence ， 35 （ 7 ）：1565-1576，2013。一、二[3] J. C. Bazin，Y.徐河I. Hartley和M.波勒菲斯旋转和焦距未知的全局最优内点集最大化。2014年，在ECCV。一、二[4] A. B jorck和V. 每一年。范德蒙方程组的解Mathematicsof Computation，24（112）：893- 903，1970. 2[5] F. Bogo、A.金泽角Lassner，P.诉Gehler，J.Romero和M.J.布莱克。保持它smpl：由单一影像自动估计三维人体位姿与形状。在ECCV，2016年。8[6] F. Bogo ， J. Romero ， M. Loper 和 M. J. 布莱克。FAUST：3D网格配准的数据集和评估IEEEConf.计算机视觉和模式识别（CVPR），Piscataway，NJ，美国，2014。美国电气与电子工程师协会。8[7] E. Brachmann，A. Krull，S. Nowozin，J. Shotton，F. 米歇尔S. Gumhold和C.罗瑟用于摄像机定位的可微分变换。在CVPR，第3卷，2017年。一、二[8] P. Breiding，S.K. 韦罗夫舍克湾Sturmfels和M.温斯坦从样本中学习代数簇。arXiv预印本arXiv：1802.09436，2018。2[9] P. Breiding，S.K. 韦罗夫舍克湾Sturmfels和M.温斯坦从样本中学习代数簇。arXiv预印本arXiv：1802.09436，2018。2[10] T. J. Chin，Y.H. Kee，A.Eriksson和F.诺伊曼混合整数线性规划的保证离群值去除。在CVPR，2016年。一、二、七[11] T.- J. Chin，P. Purkait，A. P. Eriksson和D.苏特树搜索的有效全局最优一致性最大化。2015年IEEE计算机视觉和模式识别会议，第2413-2421页，2015年。8[12] O. D.福格拉斯用未校准的立体装置在三维空间中可以看到什么。见ECCV，第563-578页，1992年。一、二[13] M. A. Fischler和R. C.波尔斯随机样本同意：模型拟合的范例及其在图像分析和自动制图中的应用。Commun.ACM，24（6）：381-395，1981. 一、二[14] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议（CVPR），2012。8[15] R. I. Hartley和F.卡尔通过旋转空间搜索进行全局优化。IJCV，82（1）：64-79，2009. 一、二[16] R. I. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，ISBN：0521540518，第二版，2004。一、二[17] J. A. Hesch和S. I.鲁梅利奥蒂斯直接最小二乘（DLS）法求解PSNR。在ICCV，第383-390页，2011年。一、二[18] Y. Hu，D. Zhang，J. Ye，X. Li和X.他外通过截断核范数正则化快速准确的矩阵完成IEEE传输模式分析马赫内特尔，35（9）：2117-2130，2013. 3[19] D. P. Kingma 和J. BA. Adam ：随机最佳化的方法。CoRR，abs/1412.6980，2014。4[20] L. Kneip，H. Li和Y.徐UPnp：一个具有普遍适用性的绝对位姿问题的o（n）最优解. In D.弗利特帕伊德拉湾Schiele和T. Tuytelaars，编辑，计算机视觉-一、二[21] S.库马尔湾Dai和H.李从两个透视帧重建复杂动态场景的单目稠密三维。InICCV，2017. 5[22]Z. L'aehne r，M. Vestne r，A. B o yarski，O. 利塔尼河斯洛斯贝，T. Remez，E. Rodol a`，A. M. 布朗斯坦M. M. 布朗斯坦R. Kimmel和D.克莱姆斯通过核匹配实现有效的可变形形状在3DV，2017年。8[23] H.李鲁棒几何估计的保证全局最优性的一致集最大化。ICCV，2009年。一、二[24] J. Li，B. M. Chen和G. H.李你So-net：用于点云分析的自组织网络。CoRR，abs/1803.04249，2018。二、四[25] O. Litany，T.Remez，E.Rodola，A.M. Bronstein和M.M.布朗斯坦深层功能图：密集形状对应的结构化预测。InICCV，2017. 8[26] H. Longuet-Higgins从两个投影重建景物的一种计算机算法。自然，293：133-135，1981. 1[27] M. 洛珀，N.Mahmood，J.罗梅罗湾Pons-Moll和M.J.布莱克。SMPL：一个多人皮肤线性模型。ACM Trans.Graphics（Proc. SIGGRAPH Asia），34（6）：248：1-248：16，2015。七、八[28] R. A. Newcombe，D. Fox和S. M.塞茨动态融合：非刚性场景的实时重建与跟踪。CVPR，2015。5[29] T.阮氏W. Chen，S. S.希瓦库马尔角泰勒，和库马尔。无监督深度单应性：一种快速可靠的单应性估计模型。 IEEE Robotics and Automation Letters ， 3 ：2346-2353，2018。2[30] D. 是的。五点关系问题的有效解决方案IEEE传输模式分析马赫内特尔，26（6）：756-777，2004. 一、二[31] D. P. Paudel，A.哈贝德角Demonceaux和P.瓦瑟尔通过平方和多项式实现图像集和结构化场景的鲁棒和最佳配准国际计算机视觉杂志，127：415-436，2018。2[32] O. Poursaeed，G. Yang，杨树A.普拉卡什角Z. Fang，H. 江泽民说，B. Hariharan和S.贝隆吉无对应关系的深度基本矩阵估计。2018. 2940[33] T. Probst，A.Chhatkuli，D.P. Paudel和L.诉好极了非刚性形状的无模型共识最大化。CoRR，a

下载后可阅读完整内容，剩余1页未读，立即下载