没有合适的资源?快使用搜索试试~ 我知道了~
4322神经引导RANSAC:学习在哪里采样模型假设Eric Brachmann和Carsten Rother视觉学习实验室海德堡大学(HCI/IWR)http://vislearn.de摘要我们提出了神经指导的RANSAC(NG-RANSAC),一个扩展到经典的RANSAC算法的鲁棒优化。NG-RANSAC使用先验信息来改进模型假设搜索,从而增加找到无离群值的最小集合的机会。以前的作品使用启发式侧信息,如手工制作的描述符距离,以指导假设搜索。相比之下,我们以一种有原则的方式学习假设搜索,让我们在训练过程中优化任意任务的损失,从而大大改善了经典的计算机视觉任务。我们提出了两个进一步的扩展NG-RANSAC。首先,使用内点计数本身作为训练信号允许我们以自我监督的方式训练神经指导。其次,我们将神经指导与可微RANSAC相结合,构建神经网络,专注于输入数据的某些部分,并使输出预测尽可能好。我们评估了NG-RANSAC在广泛的计算机视觉任务,即对极几何估计,地平线估计和相机重新定位。与最先进的稳健估计器(包括最近的学习估计器)相比,我们实现了卓越或有竞争力的结果1. 介绍尽管它的简单性和发明时间,随机样本一致性(RANSAC)[12]仍然是鲁棒优化的重要方法,并且是许多最先进的视觉流水线的重要组成部分[39,40,29,6]。RANSAC允许从一组观测值中精确估计模型参数,其中一些是离群值。为此,RANSAC迭代地选择观察的随机子集(所谓的最小集合)来创建模型假设。假设根据其与所有观察的一致性进行排名,并且返回排名最高的假设作为最终估计。RANSAC的主要限制是其在具有许多离群值的域中的较差随着离群值的增加,RANSAC需要指数地多次迭代来找到无离群值的最小集合。因此,RANSAC的实现通常限制最大迭代次数,并返回迄今为止找到的最佳模型[7]。图1. RANSAC与NG-RANSAC。我们提取了两幅图像之间的2000个SIFT对应。由于离群值率为88%,RANSAC无法找到正确的相对变换(绿色正确和红色错误匹配)。我们使用神经网络来预测对应的概率分布。超过90%的概率质量落在239个对应点上,其中异常率为33%。NG-RANSAC根据该分布对最小集合进行采样,并找到角度误差小于1◦的正确变换。在这项工作中,我们将RANSAC与神经网络相结合,预测每个观察的权重。权重最终指导最小集合的采样。我们称之为神经元引导的RANSAC(NG-RANSAC)算法。我们的方法与香草RANSAC的比较可以在图中看到。1.一、神经制导NG-RANSAC结果SIFT对应RANSAC结果概率4323在开发NG-RANSAC时,我们从最近关于学习鲁棒估计器的工作中获得了灵感[56,36]。特别地,Yietal. [56]训练神经网络以将观测值分类为异常值或内点,仅将最终模型参数拟合到后者。虽然被设计为替换 RANSAC , 但 他 们 的 方 法 在 测 试 时 间 期 间 与RANSAC组合时实现了最佳结果,其中它将去除神经网络可能错过的任何离群值。这促使我们以原则性的方式结合RANSAC来训练神经网络,而不是事后强加。我们不是将神经网络输出解释为用于鲁棒模型拟合的软内点标签,而是让输出权重指导RANSAC假设采样。直观地说,神经网络应该学会减少离群值的权重,并增加内点的权重。由于RANSAC的鲁棒性,该范例在允许一定的误分类率而不会对最终拟合精度产生负面影响方面为神经网络产生了很大的内点和离群点之间的区分,以及哪些误分类是可容忍的,仅由训练期间任务损失函数的最小化来指导。此外,我们的NG-RANSAC的公式化便于利用任何(不可微)任务损失函数和任何(不可微)模型参数求解器进行训练,使其具有广泛的适用性。例如,当拟合基本矩阵时,我们可以使用5点算法,而不是其他学习的鲁棒估计器依赖的(可区分的)8点算法[56,36]。选择任务损失的灵活性还允许我们通过使用内点计数的最大化作为训练目标来训练NG-RANSAC自监督在RANSAC中使用引导采样的想法并不是新的。Tordoff 和 Murray 首 先 提 出 使 用 边 信 息 [47] 来 指 导MLESAC [48]的假设搜索。他们根据匹配分数制定了稀疏特征匹配有效的先验概率。虽然这在一些应用中对RANSAC性能具有积极影响,但是特征匹配分数或其他手工制作的启发法显然不是被设计成指导假设搜索。特别是,这种特设措施的校准可能是困难的,因为对过度自信但错误的先验概率的依赖这一事实被Chum和Matas认可,他们提出了PROSAC [9],这是RANSAC的一种变体,仅使用边信息来改变RANSAC绘制最小集合的顺序。在最坏的情况下,如果边信息根本没有用,他们的方法将退化为香草RANSAC。NG-RANSAC在以下方面采取不同的方法:(i)学习权重以引导假设搜索,而不是使用手工制作的启发式,以及(ii)将RANSAC本身集成在训练过程中,这导致预测权重的自校准。最 近 , Brachmannet al. 提 出 了 可 微 分 RANSAC(DSAC)来学习相机重新定位流水线[4]。不幸的是,我们不能直接使用DSAC来学习假设采样,因为DSAC仅可通过w.r.t.观察值,而不是抽样权重。然而,NG-RANSAC应用也用于使DSAC可区分的类似技巧虽然我们不依赖于DSAC,但神经指导可以与DSAC(NG-DSAC)结合使用,以训练同时预测观测和观测置信度的神经网络。我们总结了我们的主要贡献:• 我们提出了NG-RANSAC,一个公式的RANSAC学习指导假设抽样。我们可以使用任何(不可微的)任务损失和任何(不可微的)最小求解器进行训练。• 选 择 内 点 计 数 本 身 作 为 训 练 目 标 有 助 于 NG-RANSAC的自监督学习。• 我们使用NG-RANSAC估计核几何图像对稀疏的对应关系,它超越了竞争的强大的估计。• 我们将神经指导与可微RANSAC(NG-DSAC)相结合来训练神经网络,该神经网络对部分输入进行准确预测,同时忽略其他部分。这些模型实现了水平线估计的竞争性结果,以及相机重新定位的最新技术。2. 相关工作RANSAC由Fischler和Bolles于1981年提出[12]。从那时起,它以各种方式扩展,见例如Raguram等人的调查。[35 ]第35段。结合一些最有前途的改进,Raguram 等 。 创 建 了 通 用 RANSAC ( USAC ) 框 架[34],其代表了经典RANSAC变体的最新技术水平。USAC包括根据PROSAC [9]的引导假设采样、根据局部优化RANSAC [11]的更准确的模型拟合以及根据随机 优 化 RANSAC [10] 的 更 有 效 的 假 设 验 证 。 为RANSAC 提 出 的 许 多 改 进 也 可 以 应 用 于 NG-RANSAC,因为我们不需要这种附加的任何可微性。我们只对如何生成假设施加限制,即根据学习的概率分布。RANSAC在最近的机器学习-重视觉管道中不经常使用。值得注意的例外包括像对象实例姿态估计[3,5,21]和相机重新定位[41,51,28,8,46]的几何问题,其中RANSAC与预测图像到对象对应关系的决策森林或神经网络耦合。然而,在大多数这些工作中,RANSAC不是训练过程的一部分,因为它的不可微性。DSAC [4,6]通过假设克服了这一限制4324选择概率性动作,其促进训练期间的预期任务损失的优化。然而,DSAC是有限的,其中可以计算导数。DSAC允许区分w.r.t.到观察。例如,我们可以使用它来计算稀疏对应的图像坐标的梯度然而,DSAC不对观测选择进行建模,因此我们不能使用它来优化匹配概率。通过展示如何学习神经指导,我们缩小了这一差距。与DSAC的组合使得能够充分灵活地学习观察结果及其选择概率。除了可微稳健估计器DSAC之外,最近还有一些关于稳健估计器学习的工作。我们讨论了易等人的工作。[56]在介绍中。Ranftl和Koltun [36]采用类似但迭代的方法,让人想起用于基本矩阵估计的迭代重加权最小二乘法(IRLS)。在每次迭代中,神经网络预测加权模型拟合的观测权重,同时考虑最后一次迭代的残差。[56]和[36]都显示了相对于[57]的显著改善。香草RANSAC但需要RANSAC根据评分函数s选择模型假设作为最终估计h:h=argmaxs(h,Y).(一)h∈H评分函数测量假设相对于r.t.所有的观察,并在传统上实现为内点计数[12]。神经制导RANSAC均匀随机地选择观测值以创建假设池H。 我们的目标是根据一个学习的分布采样观察替代地,其由具有参数w的神经网络参数化。也就是说,我们根据yp(y; w)选择观测值。注意p(y;w)是一个分类分布在离散的观测集Y上,不是连续的离散的在观察空间中的分布。我们希望了解参数W的方式增加选择无离群值的最小集合的机会,这将导致准确的估计我们根据p(H; w)对假设池H进行抽样,通过独立地对观测值和最小集进行抽样,即可微最小解算器和任务损失函数。NG-RANSAC优于这两种方法,并且在定义训练目标时更灵活。这种灵活性还使我们能够在自适应环境中训练NG-RANSACp(H;w)=YMj=1p(h,j;w),其中p(h;w)=YNi=1p(yi;w)。(二)[56][57][58][59]从池H,我们估计模型参数h与3. 方法准备工作。我们解决了模型参数h与一组被噪声和异常值污染的观测值y∈ Y的例如,h可以是描述图像对[16]的对极几何的基本矩阵,并且Y可以是我们为图像对提取的SIFT对应集[27]计算-后期模型参数的观测,我们利用一个RANSAC根据Eq. 1.一、为了训练我们假设我们可以用任务损失函数(h)来衡量估计的质量。 任务损失可以计算w。r. t. 一个地面真实模型h*,或自我监督,例如通过使用最终估计的内点计数:(h)=−s(h,Y)。我们希望学习分布p(H;w)的方式是我们以高概率接收小的任务损失。灵感来自DSAC [4],我们将训练目标定义为预期任务损失的最小化:求解器f,例如8点算法[15]。然而,在这方面,根据所有观测值计算h将由于异常值而导致差相反,我们可以从a计算hL(w)=EHp(H;w)ΣΣ(h .(三)具有基数N:h = f(yi,. . . ,yN)。例如,对于基本的我们计算的梯度的预期任务损失w.r.t.网络参数为当使用8点算法时,矩阵N=8RANSAC[12]是一种从Y中选择无离群值的最小集合的算法,使得所得估计h是准确的。为此,RANSAC随机地选择M个最小集合来进行计算。L(w)=EwHΣ(h∂wΣlogp(H;w).(四)创建模型假设池H =(h 1,. . . ,hM)。RANSAC包括自适应地选择M的策略,基于离群值比率的在线估计[12]。的对所有可能的假设池进行积分以计算期望是不可行的。因此,我们通过绘制K个样本Hkp(H; w)来近似梯度:策略保证了将以用户定义的概率对无离群值集进行采样。对于具有较大离群值比率的任务,这样计算的M可以是指数级的大,并且通常被钳制到最大值[7]。为了标记L(w)≈1克鲁ΣKk=1Σ(h∂wΣlogp(Hk;w).(五)4325为了简单起见,我们采用固定M的视角,但不限制在实践中使用早期停止策略。注意,任务损失函数的梯度不出现在上面的表达式中。因此,4326∂wtasklo s,therob ustsolve v erh(即RANSA C)或最小解算器f是不需要的。这些组件仅生成用于在良好方向上操纵采样概率p(H;w)的训练信号。由于通过采样的近似,方程的梯度方差5可以很高。我们通过减去基线b[45],从再强化学习中应用标准方差减少技术:到评分功能。如在NG-RANSAC中,我们通过采样来近似第一期望,因为在所有可能的假设池上积分是不可行的。对于第二个期望,我们可以像在DSAC中那样解析地计算它,因为它在下式中的离散假设集hj上给定池H。 类似于Eq。6、我们给出近似NG-DSAC的梯度L(w)为:1ΣKΣΣ1ΣKΣΣL(w)≈∂wKk=1[(h)−b] wlogp(Hk;w).( 六)Kk=1[Ej[]−b] logp(Hk; w)+Ej[]w、(十)我们发现一个简单的基线形式的平均损失每图像足够,即 b = ¯。 减去基线将使概率分布向假设池移动每个训练样本的损失都低于平均值。与DSAC组合。Brachmann等人 [4]提出了一种基于RANSAC的流水线,其中具有参数w的神经网络预测观测值y(w)∈ Y(w)。流水线的端到端训练以及因此学习观测y(w)通过将RANSAC的argmax假设选择(参见图1)变为可能。当量1)概率行为:其中我们使用Ej[]作为Ejp(j)的替代|Hk)[(hj)]. NG-DSAC的梯度的计算需要任务损失的导数(注意等式(1)的最后部分)。10),因为Ej[]通过观测y(w)依赖于参数w。因此,训练NG-DSAC需要可微分的任务损失函数f、可微分的评分函数s和可微分的最小解算器f。请注意,我们从DSAC继承了这些限制。 作为回报,NG-DSAC允许同时学习观察和观察置信度。h=hp(j| H)= Σ exp s(hj,Y(w)).(七)4. 实验DSACjMk=1 exps(hk,Y(w))我们评估神经引导在多个,经典的COM-RANSAC(DSAC)的这种可微分变体根据从假设得分计算的分布随机地选择假设。训练目标旨在学习网络参数,使得以高概率选择具有低任务损失的假设:LDSAC(w)=Ejp(j)[(hj)]。(八)在下文中,我们扩展了具有神经引导的DSAC(NG-DSAC ) 的 公 式 。 我 们 让 神 经 网 络 预 测 观 测 值 y(w),此外,还预测与每个观测值p(y; w)相关联的概率。直观地说,神经网络可以通过这个概率表达对自己预测的信心。如果神经网络的某个输入不包含关于期望模型h的信息,则这可能是有用的。在这种情况下,观察预测y(w)必然是离群值,神经网络所能做的最好的事情就是通过分配低概率来标记它。我们将NG-RANSAC的训练目标(等式1)和NG-RANSAC的训练目标3)和DSAC(Eq. 8),其产生:L NG-DSAC(w)=EHp(H;w)Ejp(j| H)[H(hj)],(9)其中,我们再次根据等式(1)从各个p(y; w)构造p(二、NG- DSAC的培训目标包括两个期望。第一,期望w.r.t. 根据由神经网络预测的概率对假设池进行第二,期望值w.r.t.根据以下从池中采样最终估计计算机视觉任务。首先,我们将NG-RANSAC应用于估计本质矩阵和基本矩阵形式的图像对的极几何。其次,我们将NG-DSAC应用于地平线估计和相机重新定位。我们在这里提出了主要的实验结果,并参考补充有关网络架构,超参数和进一步的实验分析的细节我们的实现基于PyTorch [32],我们将公开代码1。4.1. 本质矩阵估计对极几何描述了观察同一场景的两个图像的几何[16]。 特别地,两个图像对应于同一3D点的左图像和右图像中的点x和x’满足x’Fx = 0,其中3 × 3矩阵F表示基本矩阵。我们可以估计F从8个对应中唯一地(但仅按比例),或从具有多个解的7个对应中[16]。当两个摄像机的校准参数K和K ′已知时,基本矩阵E是基本矩阵的特殊情况:E=K′FK。基本矩阵可以从5个对应关系中估计[31]。分解基本矩阵允许恢复观察相机之间的相对姿态,并且是基于图像的3D重建中的中心步骤[40]。因此,估计图像对的基本或本质矩阵是计算机视觉中的经典和1vislearn.de/research/neural-guided-ransac/43275RRootSIFT+Ratio+NG-RANSAC(+SI)5°10°20°室内°10°20°Outdoo0.510.560.560.610.620.680.80.70.60.50.40.30.20.10.0C.自我监督0.80.70.60.50.40.30.20.10.0图2. 本质矩阵估计 我们通过本质矩阵计算室外和室内图像对之间的相对姿态。 我们测量累积角度误差的AUC,最高阈值为5°、10°或20°。a)我们不使用关于稀疏对应的边信息。b)我们使用最佳匹配和次佳匹配之间的描述符距离比形式的边信息我们使用它来过滤阈值为0.8(+Ratio)的对应关系,作为我们网络的额外输入(+SI),并作为USAC的额外输入[34]。c)我们通过使用内点计数作为训练目标,以自监督的方式训练NG-RANSAC在 下 文 中 , 我 们 首 先 针 对 校 准 情 况 评 估 NG-RANSAC,并根据SIFT对应关系估计基本矩阵[27]。为 了 与 最 近 的 , 学 习 的 Yi 等 人 的 鲁 棒 估 计 的comparabil- ity。[56]我们严格遵循他们的评价体系,并与他们的结果进行比较。数据集。Yi等人[56]评估他们在室外和室内环境中的方法。对于户外数据集,他们从[19]的运动恢复结构(SfM)数据集中选择了五个场景:白金汉,诺特丹,圣心教堂,圣彼得他们从[44]中选择了两个额外的场景:喷泉和Herzjesu。他们使用SfM工具[53]重建每个场景,以获得“地面实况”摄像机姿态,以及用于选择图像对的共同可见性约束。对于室内场景Yiet al.从SUN3D数据集[54]中选择16个序列,这些序列很容易与KinectFusion [30]捕获的地面真实姿势一起出现。请参阅附录中的所有场景列表。由于无纹理表面和重复元素,室内场景对于基于稀疏特征的方法通常非常具有挑战性(参见图1的示例)。Yi等人使用一个室外场景(圣彼得Yi等人请为我们提供他们的确切数据分割,我们将使用他们的设置。注意,训练和测试是在完全独立的场景上执行的,即神经网络必须推广到未知环境。评估指标。通过基本矩阵,我们恢复成比例的相对相机姿态,并与地面实况姿态进行比较,如下所示。我们测量姿势旋转之间的角度我们取两个值的最大值作为最终的角度误差。我们计算每个测试序列的累积误差曲线,并计算曲线下面积(AUC),最高阈值为5◦、10◦或20◦。最后,我们报告了所有测试序列的平均AUC(但分别针对室内和室外设置)。实施. Yi等人训练神经网络以将稀疏对应的集合分类为内点和离群点。它们将每个对应表示为组合左图像和右图像中的2D坐标的4D向量他们的网络受到PointNet [33]的启发,并通过一系列多层感知器(MLP)独立处理每个对应全局上下文通过在层之间使用实例和批处理标准化[49,20]来注入。 我们在PyTorch中重新构建该架构,并根据NG-RANSAC(等式1)训练它。(3)第三章。也就是说,网络预测权重以引导RANSAC采样而不是内点类标签。我们使用估计的相对姿态与地面真实姿态之间的角度误差作为任务损失。 作为最小求解器f,我们使用5点算法[31]。 为了加快训练速度,我们通过学习预测每个对应点到地面真实极线的距离来初始化网络,请参阅补充资料了解详细信息。我们初始化75k次迭代,并根据Eq.3,25k次迭代。 我们使用Adam [23]进行优化,学习率为10- 5。对于每个训练图像,我们提取2000个SIFT对应,并对K=4个假设池进行采样,其中M=16个假设。我们在训练过程中使用少量的假设,以获得采样池时的变化 对于测试,我们增加假设的数量为M=103。假设使用相机校准参数的归一化图像坐标,我们使用10 −3的内点阈值。结 果 我 们 将 NG-RANSAC 与 Yi 等 人 的 内 点 分 类(InClass)进行比较。[56]。他们使用他们的方法与SIFT以及LIFT [55]功能。我们包括DeMoN [50]的结果,这是一种学习的SfM管道,GMS [2]是一种使用ORB特征的半密集方法[38]。作为经典基线,我们与香草RANSAC [12]和USAC [34]进行比较。结果见图2a)。RANSAC在所有阈值上都取得了较差的结果,得分为最弱的方法。在这个实验中,我们假设没有关于对应关系质量的辅助信息。因此,USAC执行类似于RANSAC,因为它不能使用引导采样。将RANSAC与neu-A.没有边信息[50]第五十话GMS[2]+RANSACSIFT+InClass[56]+RANSACLIFT[55]+InClass[56]+RANSACSIFT+RANSACSIFT+USAC[34]SIFT+NG-RANSAC5°10°20°5°10°20°室外室内b)附带信息SIFT+比率+RANSAC SIFT+USAC[34]RootSIFT+Ratio+RANSACSIFT+比率+USAC[34]RootSIFT+Ratio+USACSIFT+NG-RANSAC(+SI)RootSIFT+Ratio+ NG-RANSAC(+SI)5°10°20°5°10°20°室外室内AUC0.270.320.110.100.130.190.490.160.170.350.410.180.220.540.230.290.450.530.240.270.590.060.070.080.070.020.020.140.130.130.140.130.050.030.200.240.220.240.220.100.060.290.120.150.100.140.160.140.150.160.180.220.160.210.240.210.220.240.270.310.240.300.340.310.320.340.480.540.430.510.580.530.540.590.540.600.480.570.610.580.600.640.610.660.540.630.680.640.660.700.140.160.200.230.290.344328室内室外基蒂RANSAC结果。Δ:���122.8°,Δ:���1.2°Δ:���131.0°,Δ:���49.1°%内部值:25.1,F评分:38.8,平均值:0.16NG-RANSAC结果。Δ:���5.5°,Δ:���0.6°Δ:���1.8°,Δ:���0.8°%内点:31.7,F评分:62.6,平均值:0.10图3. 定性结果。我们比较了RANSAC和NG-RANSAC的拟合模型。对于室内和室外图像对,我们拟合基本矩阵,并且对于Kitti图像对,我们拟合基本矩阵。如果最终模型内点符合地面实况模型,则用绿色绘制,否则用红色我们还测量每个估计的质量,有关度量的详细信息,请参阅正文语音引导(NG-RANSAC)将其提升到领先位置。与USAC不同,NG-RANSAC仅从对应的空间分布推断有用的引导权重。也参见图三是质量结果。NG-RANSAC优于Yi等人的InClass。[56]尽管有一些相似之处。两者都使用相同的网络体系结构,基于SIFT对应关系,并且两者都在测试时使用RANSAC。Yi等人[56]第56话基于8点算法的桥接分类回归损失,并最终使用平方误差比较基本矩阵。因此,他们的培训目标与评估程序非常在评估期间,他们使用RANSAC与其内点预测之上的5点算法,并测量角度误差。NG-RANSAC在其训练过程中结合了所有这些组件,因此优化了正确的目标。使用边信息。Yi等的评价程序。[56]被设计来测试高离群值域中的鲁棒估计器。然而,它低估了经典方法在这些数据集上可以实现最佳和次佳SIFT匹配的距离USAC [34]可以使用该辅助信息来根据PROSAC策略[9]指导假设采样此外,Lowe我们在图2b)中将比率滤波器表示为+比率,并且观察到所有方法的显著改进。RANSAC和USAC这两种经典方法都优于图1中的所有学习方法。2 a)。SIFT描述符的RootSIFT归一化[1]进一步提高了准确性。NG-RANSAC容易合并边信息。为了获得最佳精度,我们在比率过滤的RootSIFT对应上训练它,使用距离比率作为额外的网络输入(表示为+SI)。关于具有不同假设计数M的NG-RANSAC和USAC的详细比较,请参见补充。自我监督学习。我们通过定义任务损失来训练NG-RANSAC自监督,以评估独立于地面真实模型h*的估计的质量。一个自然的选择是最终估计的内点计数。我们发现内点计数是一个非常稳定的训练信号,即使在训练开始时,我们也不需要对网络进行特殊的初始化。我们在图中报告了自监督NG-RANSAC的结果。2c)。除USAC [34]外,它在准确性方面优于所有竞争对 手 。 无 监 督 NG-RANSAC 实 现 比 有 监 督 NG-RANSAC稍差的准确性。有监督的任务丢失允许NG-RANSAC更精确地适应测试时使用的评估措施。对于到目前为止使用的数据集,图像配对的过程使用共同可见性信息,并且因此是一种监督形式在下一节中,我们通过使用序列数据的排序来组装图像对来学习NG-RANSAC完全自监督。4.2. 基础矩阵估计我们将NG-RANSAC应用于基本矩阵估计,将其与Ranftl和Koltun [36]的学习估计器进行比较,表示为Deep F-Mat。他们提出了一个迭代过程,其中神经网络估计观测权值的鲁棒模型拟合。最后一次迭代的残差是下一次迭代中网络的额外输入。该网络架构与[56]中的网络架构类似对应关系被表示为4D向量,并且它们使用距离比作为附加输入。一系列MLP处理每个对应关系,其中实例归一化交错。Deep F-Mat是最近发布的,代码还不可用。我们遵循[36]中描述的评估程序并与其结果进行比较。数据集。 Ranftl和Koltun [36]评价了他们的方法 在各种数据集,涉及定制重建不公开。因此,我们在Kitti数据集[14]上比较了他们的方法,该数据集是在线的。兰夫特尔和科尔通[36]第36话,我的朋友NG-RANSAC神经制导RANSAC4329培训%内界值F-score平均中值目的RANSAC-21.8513.840.350.32美国空军[34]-21.4313.900.350.32[36]第三十六话是说24.6114.650.320.29NG-RANSAC是说25.0514.760.320.29NG-RANSACF-score24.1314.720.330.31NG-RANSAC %内点25.1214.740.32 0.29图4. 基本矩阵估计我们测量了估计模型的内点的平均百分比、估计内点和真实内点的对齐(F分数)以及估计内点到真实外点的平均和中值距离。对于NG-RANSAC,我们比较了不同目标训练后的性能。%Inliers是一个自我监督的目标。里程计基准和序列06-10上的测试。它们通过在序列内拍摄后续图像来形成图像对。对于每一对,他们提取SIFT对应并应用Lowe评估指标。Ranftl和Koltun [36]评价我们-使用多个度量。它们测量的是内点最终模型的对应关系。它们计算对应性的F分数,其中真阳性是地面实况模型和估计模型的内点。F分数测量图像空间中估计的和真实的基本矩阵的对准。这两个指标都使用0.1px的内点阈值。最后,他们计算内点对应的平均值和中值极线误差w.r.t.地面实况模型,使用1px的内点阈值。实施.我们不能使用为迭代应用而设计的Deep F-Mat因此,我们重新使用Yi等人的架构。[56]来自NG-RANSAC的前一节(也参见补充以了解细节)。我们遵守第2节中描述的培训设置。4.1有以下变化。我们在Kitti上观察到更快的训练收敛,因此我们省略了初始化阶段,并直接优化了预期的任务损失(等式2)。3)对于300k次迭代。由于Ranftl和Koltun[36]使用多个度量进行评估,因此任务损失函数的选择并不清楚。因此,我们训练具有不同目标(%内点、F分数和平均误差)的多个变体,并报告相应的结果。 作为最小求解器f,我们使用7点算法,RANSAC阈值为0.1px,并且我们每个训练图像绘制K=8个假设池,每个假设池具有M=16个假设。结果我们在图中报告了结果。4.第一章NG-RANSAC优于经典方法RANSAC和USAC。NG-RANSAC的性能也略优于Deep F-Mat。我们观察到,培训目标的选择有小,但显着的影响评价。所有度量都是高度相关的,并且在训练中优化度量通常也在测试时使用该度量实现良好(但不一定是最佳)的准确性。有趣的是,在训练期间优化内围值计数具有竞争性,尽管是自我监督的目标。图3显示了关于Kitti的定性结果。图5. 水平线估计左图:HLW数据集上的AUC。右:定性结果。我们用绿色画出地面实况hori-zon,用蓝色画出估计值。点标记NG-DSAC预测的观察结果,点颜色标记其置信度(深色=低)。注意,地平线可以在图像之外。4.3. 地平线线我们拟合一个参数模型,地平线,一个单一的图像。地平线可以作为图像理解[52]或图像编辑[25]的提示传统上,该任务通过消失点检测和几何推理[37,24,57,42]来解决,通常假设曼哈顿或亚特兰大世界。我们采取更简单的方法,并使用通用CNN,该CNN基于我们用RANSAC拟合线的图像预测一组64个2D点,参见图12。五、该网络具有两个输出分支,预测(i)2D点y(w)∈ Y(w),以及(ii)用于引导采样的概率p(y; w)(详见补充)。数据集。我们在HLW数据集[52]上进行评估,HLW数据集是具有注释地平线的SfM数据集的集合。评估指标。作为HLW上的常见做法,我们测量估计的hori- zon和地面实况之间的最大距离的图像,我们计算累积误差曲线的AUC,直至0.25的阈值。实施.我们使用NG-DSAC目标(等式1)进行训练。9)从头开始进行250k次迭代。作为任务损失,我们使用估计和真实视野之间的归一化最大距离对于假设评分,我们使用软内点计数[6]。我们使用Adam[23]进行训练,学习率为10- 4。对于每个训练图像,我们绘制K=2个假设池,其中M=16个假设。我们还在测试时提出了16个假设我们与DSAC进行比较,我们类似地训练DSAC,但禁用概率分支。结果我们在图中报告了结果。五、DSAC和NG- DSAC在此数据集上实现了具有竞争力的准确性,在顶级方法中NG-DSAC相对于单独的DSAC具有小但我们的方法仅被SLNet [25]超越,SLNet是一种旨在寻找图像中语义线的架构。SLNet生成大量随机候选线,经由分类选择候选,并且用预测偏移对其进行细化我们可以将SLNet与神经指导结合起来,以进行知情的候选人采样。不幸的是,SLNet的代码不在网上,作者没有回复查询。AUC(%)Simon等人[42] 54.4Kluger等人[24] 57.3Zai等人[57] 58.2Workman等人[52] 71.2DSAC 74.1NG-DSAC 75.2SLNet[25] 82.34330a) 在整个训练过程中神经指导的发展RGB迭代:0迭代:100k迭代:200kb) 大法院(GreatCourt)DSAC++ NG-DSAC++图6. 用于相机重新定位的神经指导。a)NG-DSAC++在整个训练中的预测采样概率。b)神经网络的内部表示。我们预测每个训练图像的场景坐标,用RGB颜色绘制它们。对于DSAC++,我们随机选择训练像素,对于NG-DSAC++,我们根据预测分布随机选择DSAC++[6]DSAC++ NG-DSAC++(VGGNet)(ResNet)(ResNet)大法院40.3cm 40.3cm35.0cm国王学院17.7cm 13.0cm12.6cm旧医院19.6cm22.4cm 21.9cm商店门面5.7cm5.7cm5.6cmStM. 教堂12.5cm 9.9cm9.8cm图7. 摄像机重新定位。我们报告剑桥地标的中值位置误差[22]。DSAC++(ResNet)是我们对[6]的重新实现,具有改进的网络架构。4.4. 摄像机重新定位我们估计绝对6D相机姿态(位置和取向)w.r.t.从单个RGB图像中提取已知场景数据集。我们在Cambridge Landmarks [22]数据集上进行评估。它由RGB图像组成,描绘了英国剑桥的五个地标建筑。地面真实姿势是通过运行SfM管道生成的。评估指标。我们测量每个场景的估计姿势的中值平移误差。实施.我们建立在公开可用的DSAC++流水线[6]上,这是一种场景坐标回归方法[41]。神经网络为每个图像像素预测场景空间中的3D坐标。我们使用RANSAC循环内的透视n点求解器[13DSAC++流水线以完全可微的方式实现几何姿势优化,这有助于端到端训练。我们重新实现了DSAC++与PyTorch的神经网络集成(原始使用LUA/Torch)。我们还通过使用ResNet [18]而不是VGGNet [43]更新了DSAC++的网络架构。与水平线估计一样,我们将第二输出分支添加到网络,用于估计场景坐标预测上的概率分布,以用于引导RANSAC采样。我们注意到这种扩展架构NG-DSAC++。我们坚持DSAC++的训练过程和超参数(参见补充),但优化了NG-DSAC目标(等式2)。9)在端到端培训期间。作为任务损失,我们使用旋转和平移误差的平均值w.r.t.地面真实姿势我们对K=2个假设池进行采样,每个训练图像M = 16个假设,并将假设数量增加到M = 256进行测试。结果我们报告我们的定量结果图。7.第一次会议。首先,我们观察到使用DSAC++与ResNet架构时,大多数场景都有显着改善其次,将DSAC++与NG-DSAC++进行比较,我们注意到小到准确性的适度但一致的改善使用神经引导的优势对于大法院场景是最大的,其特征在于大的模糊的草地区域,以及在许多图像中可见的大面积天空。NG-DSAC++学会忽略这些区域,参见图2中的可视化。6 a)。在训练过程中,网络学习仅通过任务丢失来掩盖这些区域,因为网络无法为它们预测准确的场景坐标。在图6b)中,我们将DSAC++和NG-DSAC++针对一个场景学习的内部表示DSAC++的表示非常嘈杂,因为它试图优化天空和草地像素的几何约束。 NG-DSAC++通过完全专注于建筑物来学习更清晰的表示。5. 结论我们已经提出了NG-RANSAC,一个强大的估计器,使用引导假设采样,根据学习的概率。对于训练,我们可以结合不可微的任务损失函数和不可微的最小求解器。使用内点计数作为训练目标允许我们也训练NG-RANSAC自监督。我们将NG-RANSAC应用于多个经典的计算机视觉任务,并观察到相对于机器视觉的一致改进。只有RANSAC鸣谢:该项目已获得欧洲研究委员会(ERC)在欧盟地平线2020研究和创新计划(赠款协议编号647769)下的资助。计算在德累斯顿工业大学信息服务和高性能计算中心(ZIH)0采样加权1StM. 教会旧医院大中庭4331引用[1] 雷利亚·阿兰杰洛维奇每个人都应该知道的三件事,以提高对象检索。CVPR,2012。6[2] JiaWang Bian , Wen-Yan Lin , Yasuyuki Matsushita ,Sai-Kit Yeung,Tan Dat Nguyen,and Ming-Ming Cheng.GMS:基于网格的运动统计,用于快速、超鲁棒的特征对应。在CVPR,2017年。5[3] Eric Brachmann、Alexander Krull、Frank Michel、StefanGumhold、Jamie Shotton和Carsten Rother。 使用3D对象坐标学习6D对象姿态估计。2014年,在ECCV。2[4] Eric Brachmann、Alexander Krull、Sebastian Nowozin、Jamie Shotton、Frank Michel、Stefan Gumhold和CarstenRother 。 DSAC- 用 于 相 机 定 位 的 可 微 分 RANSAC 在CVPR,2017年。二、三、四[5] 放 大 图 片 作 者 : Eric Brachmann , Frank Michel ,Alexander Krull , Michael Y.Yang , Stefan Gumhold ,and Carsten Ro
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功