DSAC：可微RANSAC用于相机定位的鲁棒优化

141 浏览量更新于2023-10-16 收藏 909KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6684DSAC-用于相机定位的可微RANSACEric Brachmann1，Alexander Krull1，Sebastian Nowozin2Jamie Shotton2，Frank Michel1，Stefan Gumhold1，CarstenRother11TU Dresden，2Microsoft摘要RANSAC是鲁棒优化中的一个重要算法，也是许多计算机视觉应用的核心组成部分。近年来，传统的手工管道已经被深度学习管道所取代，深度学习管道可以端到端的方式进行训练。然而，RANSAC到目前为止还没有被用作这种深度学习管道的一部分，因为其假设选择过程是不可微的。在这项工作中，我们提出了两种不同的方法来克服这一限制。最有前途的方法是受强化学习的启发，即用概率选择代替确定性假设选择，我们可以推导出预期损失w.r.t.所有可学习的参数。我们称这种方法为DSAC，RANSAC的可微对应物我们将DSAC应用于相机定位问题，其中深度学习迄今未能改善传统方法。我们证明，通过直接最大限度地减少输出相机姿态的预期损失，鲁棒性估计的RANSAC，我们实现了精度的提高在未来，任何深度学习管道都可以使用DSAC作为鲁棒优化组件1。1. 介绍1981年引入的随机样本一致性（RANSAC）算法[11]仍然是鲁棒估计的最重要算法。它易于实现，可以应用于广泛的问题，并且能够处理具有相当大百分比的离群值的数据I.E.数据模型无法解释的数据点。RANSAC及其变体[39，28，7]多年来一直是计算机视觉中的重要工具，包括多视图几何[16]，对象检索[29]，姿态估计[36，4]和同时定位和映射（SLAM）[27]。这些不同任务的解决方案通常包含一个共同的策略：本地预测（例如特征匹配）引入全局模型（例如，单应性）。在1我们将在DSAC项目网站上公开我们的源代码该模式RANSAC提供了对错误局部预测的鲁棒性最近，深度学习已被证明在图像识别任务中非常成功[37，17，13，31]，并且越来越多地在其他领域，包括几何[10，19，20，9]。最近的成功部分是执行端到端培训的能力，即。通过整个管道传播梯度，以允许直接优化特定于任务的损失函数，示例包括[41，1，38]。在这项工作中，我们感兴趣的是学习计算机视觉管道的组成部分，它遵循以下原则：局部预测，全局拟合。如前所述，RANSAC是这种广泛传播的策略的组成部分我们提出的问题是，我们是否可以端到端地训练这样的管道。更具体地说，我们希望学习卷积神经网络（CNN）的参数，使得模型通过RANSAC鲁棒地拟合其预测，最小化任务特定的损失函数。RANSAC的工作原理是首先从数据点的随机小子集中创建多个模型假设。然后，它通过确定每个假设与所有数据点的一致性来对每个假设进行最后，RANSAC选择具有最高一致性的假设作为最终输出。不幸的是，这种假设选择是不可微的，这意味着它不能直接用于端到端训练的深度学习管道。深度学习社区中的一种常见方法是软化不可微运算符，例如。LIFT [41]中的argmax或NetVLAD [1]中的视觉字分配在RANSAC的情况下，不可微算子是选择最高评分假设的argmax类似于[41]，我们可以用argmax代替软argmax，这是参数的加权平均[6]。我们确实探索了这个方向，但认为，这种subjudication- tion改变了RANSAC的基本原则。管道不是学习如何选择好的假设，而是学习假设的（鲁棒的）平均值。我们的实验表明，这种方法学会专注于一个狭窄的选择的假设，并容易过度拟合。或者，我们的目标是保留硬假设选择，但将其视为概率过程。我们称之6685方法DSAC -微分样本共识-我们的新的，可微分对应RANSAC。DSAC允许我们区分管道w.r.t.的预期所有可学习的参数。这种技术在强化学习中是众所周知的，用于随机计算问题，如策略梯度方法[34]。为了演示原理，我们选择相机定位问题：从已知静态场景中的单个RGB图像，我们估计相对于场景的6D相机姿态（3D平移和3D旋转）。我们展示了针对此问题的端到端可训练解决方案，该解决方案基于场景坐标回归森林（SCoRF ）方法[36 ，40，5]。原始的SCoRF方法使用回归森林来预测观察到的图像中的每个像素在“场景坐标”方面的3D位置。假设-验证-细化RANSAC循环然后随机选择四个像素位置的场景坐标以生成初始的一组相机姿态假设，然后迭代地修剪和细化该组相机姿态假设，直到保留单个高质量姿态估计。与以前的SCoRF方法相比，我们采用两个CNN预测场景坐标和评分假设。更重要的是，这项工作的关键新颖性是用我们的新的、可扩展的 DSAC 取代RANSAC。简而言之，我们的贡献是• 我们提出并讨论了两种替代的方法，使RANSAC可微，软argmax和prob，prob-selection。我们称之为RANSAC新版本，DSAC（Differentiable Sample Consensus）。• 我们将这两个选项都放入了一个新的端到端可训练相机定位管道中。它包含两个独立的CNN，由我们的新RANSAC链接，受先前工作的激励[36，23]。• 我们通过实验验证了概率选择的优越性，即：对过度敏感适合我们的应用。我们推测，概率选择的优势是允许硬决定，同时，保持广泛的分布在可能的决定。• 我们在相机局部化方面超过了最先进的结果3.3%。1.1. 相关工作在过去的几十年里，研究人员提出了许多原始RANSAC算法的变体[11]。大多数作品集中在两个方面之一或两者：速度[8，28，7]，或最终估计的质量[39，8]。关于RANSAC变体的详细信息，我们请读者参考[30]。据我们所知，这项工作是第一个为了端到端学习的目的引入RANSAC的可微分变体在下文中，我们回顾了以前关于Biferren的工作-摄像机定位问题的算法和解决方案。微分算法深度学习的成功始于CNN在一次前向传递中处理图像以直接预测所需输出的系统，e.G.类概率[22]，语义分割[25]或深度值和法线[10]。如果有足够的训练数据，CNN可以自主地发现解决手头任务的有用策略，例如：层次部分-对象识别的结构[42]。然而，对于许多计算机视觉任务，有用的策略已经知道很长时间了。最近，研究人员开始重新审视并在深度学习管道中明确编码这些策略。与具有无约束架构的CNN相比，这可以减少必要的训练数据量[35]。Yi等人[41]介绍了一种CNN堆栈，该堆栈重构了最初在[26]中提出的检测、方向估计和描述的已建立稀疏特征管道。 Arandjelovic等人[1]将局部聚集描述符向量（VLAD）[2]映射到CNN架构以进行位置识别。Thewlis等人[38]用反向卷积代替深度匹配的递归解码[32]，用于端到端可训练的密集图像匹配。与这些作品的精神相似，我们展示了如何以端到端的方式训练一个建立的基于RANSAC的计算机视觉管道。我们不是像[41，1]中那样用软对应物代替硬选择，而是通过将硬选择转化为概率过程来实现因此，我们能够计算梯度以最小化任务损失函数的期望[34]。摄像机定位。SCoRF相机定位管道[36]，已经在引言中讨论过，已经在几项工作中扩展。Guzman-Rivera等人[14]训练了一个随机森林来预测不同的场景坐标，以解决场景歧义。Valentin等人[40]训练随机森林来预测场景坐标的多模型分布，以提高姿势精度。Brachmann等人[5]利用自动上下文随机森林的增强预测能力，从RGB图像而不是RGB-D解决了相机定位问题。这些作品都不支持端到端的学习。在类似于SCoRF但用于对象姿态估计任务的系统中，Krullet al. [23]训练CNN通过比较渲染和观察到的图像来衡量假设共识。在这项工作中，我们采用了CNN测量假设共识的想法，但与场景坐标回归器一起学习，并以端到端的方式学习。Kendall等人[20]证明了单个CNN能够直接回归给定RGB图像的6D相机姿势，但其在室内场景中的准确性低于基于RGB的SCoRF管道[5]。6686a）VanillaRANSAC对应预测AM= argmaxI最小集合抽样假设生成评分假设选择hAM细化损失但是，地面真相∗b）软argmax选择（SoftAM）exp（）ISoftAM=σexp（′）′WvhSoftAM∗c）概率选择（DSAC）exp（）DSAC=，J~σexp（）I′′WvDSAC∗图1. 随机计算图[34]. 在这项工作中研究的三个RANSAC变体的图形表示。这些变量在选择最终模型假设的方式上有所不同：a）具有硬的、确定性的argmax选择的不可微的、普通的RANSAC; b）具有确定性的、软的argmax选择的可微的RANSAC; c）具有硬的、概率选择的可微的RANSAC（称为DSAC）。以方框表示的节点表示确定性函数，而黄色背景的圆形节点表示概率函数。箭头指示计算中的依赖性。a）、b）和c）之间的所有差异都用红色标记。2. 方法2.1. 背景作为解释我们的方法的序言，我们首先简要回顾了用于模型拟合的标准RANSAC算法，以及它如何应用于使用判别式场景坐标回归的相机定位问题。计算机视觉中的许多问题涉及将模型拟合到一组数据点，这在实践中通常包括由于传感器噪声和其他因素引起的离群值。RANSAC算法是专门设计的，能够在存在噪声的情况下稳健地拟合模型[11]。RANSAC存在几十种变体[39，8，28，7]。我们在这里考虑一个一般的基本变体，但是这项工作中提出的新原理可以应用于许多RANSAC变体，例如局部细化的抢占式RANSAC [36]。基本的RANSAC实现包括四个步骤：(i) 通过对所述数据的最小子集进行采样来生成一组模型假设;（ii）基于某种共识的度量对假设进行评分，例如，通过计算内点;（iii）选择最佳评分假设;（iv）使用额外的数据点，例如，所有的内围值步骤（iv）是可选的，尽管在实践中对于高准确度是重要的。我们在下面使用相机定位的示例应用介绍我们的符号我们考虑由i索引的像素组成的RGB图像I。我们希望-匹配模型的参数h，该模型解释I. 在摄像机定位问题中，这是6D摄像机姿态，即。摄像机相对于场景在[36]之后，我们不直接将模型h*拟合到图像数据I，而是使用针对每个像素el预测的中间噪声2D-3D对应：|其中y（I，i）是像素i的“场景坐标”，即判别预测，其中在像素i处成像的点位于3D场景坐标系中我们将使用yi作为y（I，i）的简写。Y（I）表示图像I的场景坐标预测的完整集合，并且我们将Y（I）记为Y。为了从Y估计h，1. 创建一个假设池。每个假设都是从对应关系的子集这个子集包含计算唯一解所需的最小数量的对应我们称之为具有对应指数J={j1，.，jn}，其中n是最小集合大小。为了创建集合，我们均匀地采样n个对应索引：[1，. . . 、|Y|]以得到Yj：={yj1，...，yjn}。我们假设- 函数H，其从最小集合YJ生成模型假设为hJ=H（YJ）。在我们的应用程序中，H是透视n点（PNP）算法[12]，n=4。2. 对假设进行评分。标量函数s（hJ，Y）测量假设h J的一致性/质量，例如以点算─6687h=JJJ是J、Inlier对应。为了在我们的应用中定义内点，我们首先定义场景坐标yi的重投影误差：ei= pi−ChJyi，（1）其中pi是像素i的2D位置，C是相机投影矩阵。我们称yi为内点，如果eiτ，其中τ是内点阈值。<在这项工作中，我们的目标不是计算内点，而是学习s（hJ，Y）以直接从重投影误差ei回归假设得分，正如我们将很快解释3. 选择最佳假设。我们采取h AM = argmax s（hJ，Y）。（二）HJ4. 完善假设。hAM使用函数因为选择过程本身取决于w和v，而w和v并不表示在所选假设的梯度中。2参数v通过评分函数s（h，Y; v）直接影响选择，参数w影响竞争假设h的质量，尽管两者都不影响最小集合YJ的初始均匀采样。接下来，我们提出两种学习参数w和v的方法-软argmax选择（第2.2.1）和概率选择（第2.2.1节）。2.2.2）2.2.1软argmax选择（SoftAM）为了解决不可微性的问题，可以放松方程的argmax2并将其替换为软argmax算子[6]。软argmax将假设选择转换为假设的加权平均值：R（hAM，Y）.细化可以使用所有对应关系Y。一种常见的方法是从Y中选择一组内点，并在此集合上重新计算函数H的w，vSoftAMΣP（J |v，w）hw（4）J精确姿态是算法hAM的输出为R（hAM，Y）.其在候选假设hw上求平均，exp（s（hw，Yw; v））2.2. RANSAC流水线中的学习P（J |v，w）=JWW.（五）J′exp（s（hJ′Y（v））Shottonet al. [36]有一个单一的学习组件，即回归森林，它做出了预测y（I，i）。Krull等人[23]将该方法扩展到也学习评分函数s（hJ，Y），作为[36]的更简单的内点计数方案的推广然而，在这方面，在该变型中，评分函数s（hw，Yw; v）必须预测导致假设的鲁棒平均的权重（即，模型参数）。这意味着被异常值破坏的模型参数应该接收足够小的权重，w v使得它们不影响h的精度。迄今为止，这些都是单独学习的用hw，v代替hw，vSoftAM相反，我们的工作旨在学习场景坐标预测和评分函数，并在RANSAC框架内以端到端的方式使参数化显式，我们有y（I，i; w）和s（h，J，Y; v）。我们的目标是学习参数w和v，其中w影响我们生成的姿势的质量，v影响应该选择好的假设的选择过程我们写Yw以反映场景坐标预测取决于参数w。类似地，我们写hw，v来反映所选择的假设取决于w和v。我们希望找到参数w和v，使得在图像I的训练集上的最终细化假设的损失最小化，即，w，vw=argminAMSoftAM在Eq. 3允许我们计算梯度来学习参数w和v。我们请有关详情，请参阅补充资料。通过利用软argmax算子，我们偏离了对假设做出一个硬决策的RANSAC原则。软argmax假设选择与鲁棒优化领域内的独立应变相似，即鲁棒平均，参见例如。Hartleyet al的工作。[15 ]第10段。当我们在实验评估中探索软argmax选择时，我们在下一节中介绍了一种替代方案，它保留了硬假设选择，并且在经验上优于我们的任务。2.2.2概率选择（DSAC）我们用最高分数的确定性选择w， v是I∈I在Eq.2通过概率选择，其中h是I的地面实况模型参数。敬阿尔-I.E.我们根据概率选择一个假设：低端的端到端学习，我们需要区分w.r.t.W和v. 我们假设一个可微损失是可微的，w，vDSAC =hw，其中J <$P（J|（v，w），（6）精化河w，v其中P（J |v，w）是分数的softmax分布，由s（hw，Yw; v）表示（参见等式（五）。可以考虑区分hAM和t。通过单个选择的假设的最小集合YJ，H6688当量二、但是以这种方式学习RANSAC管道失败了J[2]我们在早期的实验中观察到，训练损失立即增加而没有恢复。6689JW这种方法的灵感来自强化学习中的策略梯度方法，该方法涉及在随机过程中定义的损失函数的最小化[34]。类似地，我们能够学习参数w和v，使等式中定义的随机过程的损失期望第六章：坐标点估计我们使用VGG风格的架构，13层和33M参数。为了减少测试时间，我们每个图像只处理40x40个补丁。• 我们使用第二个CNN（下面称为“Score CNN”）对假设进行评分我们的灵感来自Krullet al.[23]第二十三话w，v=argminw， vΣI∈IEJP（J|v，w）[R（hw，Yw））]。（七）估计与[23]中学习CNN来比较渲染和观察到的图像不同，我们的Score CNN基于重投影预测假设共识如[34]所示，我们可以计算导数w.r.t.参数w如下（类似于参数v）：错误.对于40 × 40场景坐标预测yi中的每一个，我们计算假设hJ的重投影误差ei（参见等式①的人。这是一个40 x40的结果-∂JP（J|（v，w）∂Σ[（·）]=Σ∂ ∂投影误差图像，我们将其输入ScoreCNN是一种VGG风格的架构，具有13层和6M参数。EJP（J|（v，w）（·） logP（J|v，w）+（·）w、（8）• 代替抢占式RANSAC方案，我们仅对假设进行一次评分，并选择最终姿势，I.E.期望的导数是对损失和模型假设的对数概率的导数的期望。我们包括进一步的步骤的推导方程。8、补充材料。我们称这种区分RANSAC的方法，它保留了硬假设选择，DSAC参见图1，其是DSAC与本节开头介绍的RANSAC变体的比较示意图。虽然使用香草RANSAC学习参数是不可能的，但如上所述，两种新变体（SoftAM和DSAC）都是我们在实验部分评估的明智选择。3. 可区分的摄像机定位我们演示了区分RANSAC从RGB图像的单镜头相机定位的任务我们的管道受到Brachmann等人最先进管道的启发。[5]，这是原始SCoRF流水线[36]从RGB-D到RGB图像的扩展Brachmann等人使用自动上下文随机搜索来预测每个图像块的多模态场景坐标分布。在此之后，随机采样四个场景坐标的最小集合，并应用PNP算法[12]来创建相机姿势假设池。抢先RANSAC方案迭代地细化、重新评分和拒绝假设，直到仅剩下一个。抢占式RANSAC通过计算内点场景坐标来对假设进行评分，即. 场景坐标yi，其中重投影误差ei<τ。在最后的步骤中，使用场景坐标分布的不确定性进一步优化我们的管道不同于Brachmann等人。[5]在以下方面：• 代替随机森林，我们使用CNN（下面称为对于每个42x42像素的图像块，它预测一个场景通过应用软argmax运算符（SoftAM），或者通过根据软最大化分数的概率选择（DSAC）。• 只有最后的姿势被优化。我们选择内点对象坐标预测（最多100个），即。场景坐标yi与重投影误差ei<τ，并使用该集合再次求解PNP[24]这被迭代多次。由于坐标CNN仅预测点估计我们不使用不确定性进行进一步的姿势优化请参见图2了解我们的生产线概况。在适用的情况下，我们使用Brachmann等人报告的参数值。在[5]中，例如，采样256个假设，使用8个细化步骤和τ=10px的内点阈值。4. 实验为了与其他方法进行比较，我们展示了广泛使用的7场景数据集的结果[36]。该数据集由7个室内环境的RGB-D图像组成，其中每个帧都用其6D相机姿势进行注释每个场景的3D模型也是可用的。每个场景的数据由多个序列（=独立的摄像机路径）组成，这些序列被分配用于测试或训练。每个场景的图像数量范围从1k到7k，用于训练resp。test.我们省略了深度通道，仅使用RGB图像来估计姿势。有关7场景数据集难度的讨论，请参见补充材料。我们通过姿态误差低于5厘米和5厘米的图像的百分比来衡量准确性。对于训练，我们使用以下与任务损失密切相关的可微损失：pose（h，h其中h =（θ，t），θ表示摄像机旋转的轴角表示，t是摄像机平移。E669012w345v重投影误差为2~（|（w，v）2345输入RGB对应预测假设抽样评分概率假设选择结果图2. 可区分的相机定位管道。给定RGB图像，我们让具有参数w的CNN预测2D-3D对应，即所谓的场景坐标[36]。从中，我们对四个场景坐标的最小集合进行采样，并创建假设池h。对于每个假设，我们创建一个重投影误差的图像，由第二个CNN用参数v进行评分。我们根据分数分布概率性地选择假设。选定的姿势也会被优化。我们测量了估计旋转和地面真实旋转之间的角度θ（θ，θ），以及估计平移和地面真实平移之间的距离θt−tθθ，单位为cm。由于数据集不包括指定的验证集，因此我们从训练数据中分离出100个连续帧的多个块用作验证数据（每个场景总共10%）。我们固定了验证集上的所有学习参数（例如，学习速率和参数更新的总量）。一旦所有的超参数都固定了，我们就在完整的训练集上重新训练。4.1. 职业培训我们的管道包含两个可训练组件，即CoordinateCNN和Score CNN。首先，我们解释了如何使用代理损失来训练这两个组件，即。不是以端到端的方式，而是单独地进行培训端到端的训练使用可微RANSAC将讨论在第二节。四点二。场景坐标回归。与Brachmannet al相似。[5]，利用训练图像的深度信息生成场景坐标地面真值。或者，也可以使用可用的3D模型渲染此地面实况我们使用以下替代损失来训练坐标CNN：coord（y，y场景坐标预测，并且y是地面实况。我们也试验了其他损失，包括L2（平方距离），Huber [18]和Tukey [3]，它们始终符合...在验证集上表现得更差。我们使用64个随机抽样的训练补丁进行小批量训练。我们使用Adam [21]优化器，学习率为10−4。我们在每50k次更新后将学习率减半，并训练总共300k次更新。评分回归。我们以如下方式合成创建数据来训练ScoreCNN。通过向训练图像的地面真实姿态添加噪声，我们生成了姿态高于和低于姿态误差阈值5cm和5cm。使用经过训练的Coordinate CNN的场景坐标预测，我们计算这些图像的重投影误差图像摆姿势姿态误差较大的姿态。地面实况姿态将导致大的重投影误差，我们希望评分CNN预测一个小的分数。接近地面实况的姿势会导致小的重投影错误，我们希望Score CNN预测一个高分。更正式地说，假设h的姿态误差αpose（h，hβ）应该是负的。与评分预测值s（h，Y; v）显著相关。因此，在本发明中，我们训练Score CNN以最小化以下损失：评分（s，s）=|s−s*| 其中：s=−βpose（h，h）。参数β控制应用softmax后分数分布的宽度。我们用这个分布来计算权重在SoftAM中（参见Eq.5），并在DSAC中对假设进行采样（六）。β=10的值给出了验证集上的合理分布，即，接近地面实况的姿态被选择的概率高，而远离地面实况的姿态被选择的概率低。我们训练了Score CNN，批量大小为64个随机生成姿势的重投影错误图像我们使用Adam [21]进行优化，学习率为10−4。我们总共训练了2k次更新。表2. 完整7场景数据集（17000帧）的中位姿势误差最准确的结果标记为粗体。Brachmann等人[五]《中国日报》4.5 cm，2.0mm我们的，训练有素RANSAC4.2厘米，1.1厘米SoftAM4.2厘米，1.1厘米DSAC4.3厘米，1.1厘米我们的，训练有素End-To-EndSoftAM4.5厘米，1.2厘米DSAC4.1厘米，1.1厘米结果我们在表1中报告了我们的管道的准确性，按组件进行培训。我们提出了每个场景的准确性和平均场景。由于像楼梯和头部这样的测试帧很少的场景在平均值中被过度表示，因此我们还显示了整个数据集的准确性（表示为完整，即17000个测试帧）。我们区分RANSAC，即。不可微argmax假设选择，SoftAM，即。可微软argmax假设选择和DSAC，即。可重复概率假设选择。16691从表1中可以看出，RANSAC、SoftAM和DSAC6692表1.准确度测量为姿态误差低于5cm和5μ m的测试图像的百分比。完整表示所有场景的帧（17000）的组合绿色数字表示SoftAM端到端训练后准确率的提高。DSAC与组件式培训相比。同样，红色数字表示准确性降低。粗体数字表示每个场景的最佳结果。我们稀疏特色[36]Brachmann等人[五]《中国日报》训练有素经过培训的端到端RANSACSoftAMDSACSoftAMDSAC象棋70.7%百分之九十四点九百分之九十六点八百分之九十六点八97.1%97.3%+0.5%97.4%+0.3%火百分之四十九点九百分之七十三点五百分之七十一点八72.0%71.4%71.9%-0.1%71.6%+0.2%头67.6%百分之四十八点一66.7%百分之六十七点三68.5%67.9%+0.6%67.0%-1.5%办公室百分之三十六点六53.2%百分之五十七点六58.5%百分之五十七点四47.8%-10.7%59.4%+2.0%南瓜百分之二十一点三百分之五十四点五59.0%58.7%百分之五十七点六57.0%-1.7%58.3%+0.7%厨房百分之二十九点八42.2%40.1%百分之四十点四百分之三十八点六40.2%-0.2%42.7%+4.1%楼梯九点二百分之二十点一百分之十二点八13.5%百分之十三点七12.3%-1.2%13.4%-0.3%平均40.7%55.2%百分之五十七点八百分之五十八点二57.7%56.3%-1.4%58.5%+0.8%完成百分之三十八点六55.2%百分之五十六点八百分之五十七点二百分之五十六点三54.4%-2.8%58.0%+1.7%当按组件训练时实现非常相似的结果。与RANSAC相比，DSAC的概率假设选择导致在完整数据集上的精度略微降低了-0.5%我们将我们的管道与[36]中提出的稀疏特征基线和Brachmann等人的管道进行比较。[5]，这是目前这个数据集的最新技术。平均而言，我们管道的所有变体都超过了两个竞争对手的准确性注意，在概念上，Brachmann等人的主要优势。[5]是CNN的新评分我们还测量了数据集中所有帧的中值姿态误差，见表2。与Brachmannet al. [5]我们能够减少旋转和平移误差。PoseNet[20]指出每个场景的平均平移误差约为40厘米，因此在准确性方面无法竞争。4.2. 端到端培训为了促进端到端的学习，如第节所述。2、管道的某些部分需要是可区分的，这可能不是立即明显的。我们已经介绍了可微损失矩阵。此外，我们需要导出模型函数H（YJ）和细化Rw.r.t.可学习的参数。在我们的应用中，H（YJ）是PNP算法。现成的实现（例如，[12，24]）足够快，可以通过中心差分计算导数。精化R涉及确定内点集并在多次迭代中重新求解PNP。这个过程是不可微的，因为困难的内点选择过程。然而，由于内点的数量很大（在我们的情况下为100个），因此细化的姿势往往会随着输入场景坐标的变化而平滑地变化。因此，我们将精化过程视为黑盒，并通过中心差计算导数为了稳定性，我们提前停止细化，以防发现的内点少于50个。由于大量的输入，为了保持中心差异易于处理，我们对场景坐标进行子采样，6693计算梯度（我们使用1%），并相应地校正梯度幅度（×100）。类似于例如。[41]或[20]，我们发现，在学习端到端时有一个良好的初始化从头开始学习很快就达到了局部最小值。因此，我们用分量训练初始化Coordinate CNN和Score CNN，参见第二节。4.1.我们发现相同的训练超参数集对于SoftAM和DSAC的验证集都很有效。我们对坐标CNN使用以下学习率计划：αt=10−4/（1+0）。1t）其中αt是迭代t时的学习速率。对于分数CNN，我们使用固定学习率为10−7。我们的端到端管道包含大量的随机性，因为极小集YJ.代替不稳定的Adam过程，我们使用随机梯度下降，动量[33]为0.9，并且我们将所有梯度钳制在-0.1到0.1的范围内，然后将它们传递给Score CNN或Coordinate CNN。我们为10k更新进行训练。结果两种策略的结果见表1。与初始化（按组件训练）相比，我们观察到DSAC的显著改善（完整的数据集，平均值的标准误差为±0。4%）。DSAC提高了大多数场景的准确性，办公室（+2.0%）和厨房（+4.1%）的影响。与按组件初始化相比，SoftAM显著降低了准确性（在完整数据集上为-2.8%）。SoftAM在Office场景中严重过度拟合（-10.7%），并降低了大多数其他场景的准确性。通过DSAC端到端学习的管道改进了Brachmann等人的结果。[5]分别为3.3%（场景平均）。2.8%（全套）。DSAC还改进了中值姿态误差，参见表2。4.3. 洞察力和详细研究消融研究。我们研究了以端到端的方式学习ScoreCNN和Coordinate CNN的效果，6694我我a）、百分之八十60.0%40.0%消融研究分量式+端到端评分+端到端坐标+端到端分数+坐标SOFTAM DSACb）评分分布分量式SoftAMDSAC5.000.00当以端到端的方式训练时，CNN会发生变化。以最大限度地减少损失。SoftAM和DSAC这两种端到端学习策略都提高了场景某些区域中场景坐标预测的准确性，但代价是降低了其他区域中的准确性。我们观察到非常极端的变化，为软AM战略，即。场景坐标精度的增加和减少在幅度上是大的，并且改进集中于小的场景区域。图3. （a）端到端学习对姿势准确度的影响。单个组件。（b）端到端训练对分数分布的平均熵的影响。我们使用Office测试集进行两项研究。设置详细信息的文本。分开。我们使用组件式训练作为两个CNN的初始化见图3a）对于办公室场景的结果对于DSAC，在端到端融合中训练这两个组件对于获得最佳准确性非常重要对于SoftAM，我们看到这个场景的糟糕结果不是由于Score CNN的过度拟合，而是它学习CoordinateCNN的方式。DSAC策略导致了一个更加谨慎的权衡，I.E.变化较小，但范围广泛。请注意，我们对两种策略使用相同的学习参数。我们的结论是，SoftAM往往过拟合，由于过于积极的变化场景坐标预测。分数分布熵。分析见图3b）端到端学习对softmax分数分布的平均熵的影响（参见等式2）。（五）。我们观察到SoftAM策略的熵明显减少。假设的姿态误差越大，其对姿态平均值的影响也越大（参见等式（10））。4）. SoftAM必须积极地权衡这些姿势，以获得良好的平均值。a) 输入RGBb) 场景协调员地面实况c) 场景坐标预测（初始）DSAC可以允许更广泛的分布（参见熵的增加），因为不太可能被选择的姿势不会影响可能被选择的姿势的丢失这是DSAC稳定性的另一个因素。恢复argmax选择。在端到端列车之后-因此，可以恢复原始的RANSAC算法，例如，选择假设w.r.t.通过argmax评分。在这种情况下，端到端训练后预测误差的变化d) SoftAMe）DSACDSAC的平均精度保持在58。5%，而SoftAM的准确性进一步下降到平均55。百分之八进一步讨论。见补充资料讨论运行时间和mod的潜在好处-提取多模态场景坐标分布。-10厘米改进±0cm减少+10厘米5. 结论我们提出了两种区分RANSAC算法的策略：使用软argmax运算符和概率选择。通过实验评估，我们确认-图4. 预测质量。我们分析了Office测试图像（a）与地面真实场景坐标（b）（XYZ映射到RGB）上的场景坐标预测质量。在按分量训练之后的预测可以在（c）中看到。我们直观地显示了预测误差相对于时间的变化。分别针对SoftAM的（d）中的组件培训（e）为DSAC。我们观察到SoftAM的积极策略，它将大的改进集中在小的领域（14%的预测改进）。DSAC显示了小的改进，但在大的领域（38%的预测改善）。请注意，DSAC在此场景中实现了卓越的姿势精度。场景坐标预测分析。在组件级训练中，CoordinateCNN学会了最小化代理损失的最小化，即。场景坐标预测yiw.r.t.的距离Ground Truth是什么意思图4，我们可视化如何预测的坐标包括概率选择是优越的，称之为接近DSAC。我们演示了如何使用DSAC来学习端到端的相机定位管道。然而，DSAC可以部署在任何深度学习管道中，其中鲁棒优化是有益的，例如从运动或SLAM端到端学习结构。鸣谢：该项目已获得欧洲研究委员会（ERC）在欧盟地平线2020研究和创新计划（赠款协议编号647769）下的资助。计算在德累斯顿工业大学信息服务和高性能计算中心（ZIH）的HPC集群上进行。我们感谢牛津大学的Torr Vision Group进行了富有启发性的讨论。精度58.5%百分之五十七点二48.9%百分之五十七点四百分之五十六熵2.771.953.876695引用[1] R. Arandjel o vi c´，P. Gronat，A. Torii、T. Pajdla和J. Si vic. NetVLAD：用于弱监督位置识别的CNN架构。在CVPR，2016年。[2] R. Arandjelovic和A.齐瑟曼。关于VLAD 在CVPR，2013年。[3] A. E. Beaton和J. W.图基功率序列的拟合，意味着多项式，示出了带光谱数据。技术计量学，1974年。[4] E. Brachmann，A. Krull，F. Michel，S. Gumhold、J.Shotton和C.罗瑟使用3D对象坐标学习6D对象姿态估计2014年，在ECCV[5] E. Brachmann ， F.Michel ， A.Krull ， M.Y. Yang ，S.Gumhold和C.罗瑟不确定性驱动的6D姿态估计的对象和场景从一个单一的RGB图像。在CVPR，2016年。[6] O. Chapelle和M.吴平滑信息检索度量的梯度下降优化。信息检索，2010年。[7] O. Chum和J. Matas。与PROSAC匹配-渐进样本共识。在CVPR，2005年。[8] O. Chum、J. Matas和J.基特勒局部优化的RANSAC。载于DAGM，2003年。[9] D. DeTone，T.Malisiewicz和A.拉比诺维奇。深度图像单应性估计。CoRR，2016年。[10] D. Eigen和R.费格斯。预测深度，表面法线和语义标签与一个共同的多尺度卷积架构。在ICCV，2015年。[11] M. A. Fischler和R. C.波尔斯随机样本一致性：模型拟合的范例，应用于图像分析和自动制图。 Commun.ACM，1981年。[12] X.- S. Gao，X.- R. Hou，J. Tang，and H.- F.程透视三点问题的完全解分类。TPAMI，2003年。[13] R.娘娘腔。快速R-CNN。在ICCV，2015年。[14] A. 古兹曼-里韦拉 P. Kohli， B. 格洛克 J·肖顿，T. Sharp，A. Fitzgibbon和S.伊扎迪多输出学习-ING相机重新定位。CVPR，2014。[15] R. Hartley，K. Aftab和J.川普使用Weiszfeld算法的L1旋转平均。CVPR，2011。[16] R. I. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，2004年。[17] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CoRR，2015年。[18] P·J·胡贝尔。位置参数的鲁棒估计。数学统计年鉴，1964年。[19] A. Kanazawa，D. W. Jacobs和M. Chandraker WarpNet：用于单视图重建的弱监督匹配CoRR，2016年。[20] A. Kendall，M. Grimes和R.西波拉PoseNet：用于实时6-DoF相机重新定位的卷积网络。在ICCV，2015年。[21] D. P. Kingma和 J. BA. Adam ：随机最佳化的方法。CoRR，2014年。[22] A.克里热夫斯基岛Sutskever和G. E.辛顿基于深度卷积神经网络的ImageNet分类。NIPS，2012年。[23] A. Krull ， E.Brachmann ， F.Michel ， M.Y. Yang ，S.Gumhold和C.罗瑟用于RGB-D图像中的6D姿态估计的学习合成分析。在ICCV，2015年。[24] 诉 Lepetit ， F.Moreno-Noguer 和 P. 呸时间复杂度 O（n），时间复杂度O（n）IJCV，2009年。[25] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。[26] D.

下载后可阅读完整内容，剩余1页未读，立即下载